程序员人生 网站导航

【云先锋】讯之智RSBASE:实现PB级数据的实时查询和分析平台

栏目:互联网时间:2014-09-27 03:36:26

大数据汹涌来袭,一个大规模生产、分享和应用数据的时代正在开启。每个人,每个企业和机构都同时是数据的制造者和消费者。高速增长是大数据的一个重要特征,每时每刻,数据从各个渠道以惊人的速度源源不断地生成。信息具有时效性,各种重要的商机转瞬即逝,各种问题和危机需要实时的应对能力,以闪电的速度传递商业智能,帮助企业在瞬息万变的现代商业竞争中把握稍纵即逝的黄金机遇,游刃有余地应对各种突发问题和危机,是讯之智大数据分析产品努力追求的目标。 

开源架构Hadoop是批处理架构,不具有实时分析能力。目前流行的一些实时分析系统例如HANA都是基于纯内存计算,实时分析的数据量比较有限。由美国海归博士团队创立的南京讯之智公司自主研发的大数据实时分析平台RSBASE是基于工作集的内存需求,可用资源和系统的实时性可进行灵活调整,能够轻松实现千亿条信息的实时查询和分析。以下是对讯之智创始人谢晚霞的采访实录:

谢晚霞

南京讯之智创始人,毕业于美国佐治亚理工学院。

在美国拥有多年工作经验,曾经在美国成功创立一家致力于互联网实时搜索和分析技术的公司,公司凭借其突破性的创新技术入围美国著名的IT界创新大赛TechCrunch Disrupt。

CSDN: 首先给大家介绍一下你和你的公司?团队结构?

讯之智:南京讯之智由美国海归博士团队创立。公司从2013年起开始全面开拓中国市场。团队技术核心人物为创始人谢晚霞博士,他毕业于美国佐治亚理工学院,在美国拥有多年工作经验。曾经在美国成功创立一家致力于互联网实时搜索和分析技术的公司。该公司凭借其突破性的创新技术在美国著名的IT界创新大赛TechCrunch Disrupt中获得过决赛入围的荣誉。团队中另有多名来自中美领域的一流软件人才。同时公司在美国设有研发分支机构,以保持公司技术和世界领先水平的同步性。

CSDN:为什么选择大数据实时分析行业?是看到什么样的市场机会?

讯之智:首先在大数据实时分析领域,我们的团队在多年的工作中积累了丰富的经验。在搜索引擎技术、大规模分布式计算、数据库、数据挖掘等领域都拥有深厚的理论基础和丰富的实践经验。大数据技术是当前IT领域中最有潜力的分支,是各国政府和企业界都非常看重的具有战略意义的产业。Web2.0 、移动互联网和物联网时代的来临,更加凸显大数据技术的重大意义和应用价值。

中国是天然的数据大国。中国拥有全世界最多的网民和手机用户,也拥有非常多的信息化企业。在过去二十多年内,中国在信息化进程方面取得了巨大的进展,各行各业的领先企业以及政府机构都实现了现代信息化办公和管理,政府机构的电子政务建设也蓬勃发展。在这场规模浩大的信息化进程中,企业和政府机构积累了海量的数据。这些数据中往往蕴含着价值潜力巨大的信息,需要运用先进的数据分析技术予以充分挖掘,才能充分利用。大数据技术在中国市场上一定可以创造出巨大的价值,其发展空间不可限量,这就是我们看到的市场机会。

CSDN:你们的RSBASE大数据实时分析管理平台最大的技术优势有哪些?

讯之智:

1. 对海量流式数据的实时分析能力。自主研发的分布式存储、索引和分析平台,处于国际一流水平。国内外流行的开源架构Hadoop是批处理架构,不具有实时分析能力。目前流行的一些实时分析系统例如HANA都是基于纯内存计算,实时分析的数据量比较有限。RSBASE是基于工作集的内存需求,可用资源和系统的实时性可进行灵活调整。

2. 系统性能优化率高,对计算资源的利用率高,达到国际先进水平。行列式混合存储,数据压缩率高,同时数据装载和实时分析速度不受影响。

3. 稳定性和可靠性高,可以在公有云平台上稳定运行处理高速海量数据。目前国内外能做到这一点的厂商属于凤毛麟角。比如说,国内绝大多数的Hadoop技术供应商目前只提供基于专用计算机集群的解决方案。

4. 对非结构化数据的分析挖掘能力。讯之智的受专利保护的多维度非结构化数据分析模型,以及自主研发的功能强大的机器学习算法和知识库,支持对非结构化数据的深度挖掘,将非结构化数据和结构化数据在一起进行综合全面的分析。

CSDN:贵公司的RSBASE大数据实时分析管理平台的应用场景有哪些?

讯之智:目前的主要应用场景有电信行业大数据分析,主要是对手机用户上网行为数据的分析;

零售行业顾客购物足迹数据分析,采集和分析线下数据并关联线上数据,为传统零售业提供O2O的运营智能和推荐引擎。

机器轨迹实时监控和分析,针对计算机网络、物联网环境中产生的海量机器数据提供实时监控和分析。通过对计算机网络系统日志数据的实时监控和分析,可以预测系统性能瓶颈和实时发现黑客入侵行为。

CSDN:有好的客户案例和大家分享一下吗?

讯之智:例如在电信行业领域,我们的方案帮助了中国电信两大省公司解决了长期以来不能有效解决的用户上网行为数据分析问题。在采用我们的方案以前,电信省公司一直为持续高速增长的海量用户上网数据所困扰,因为传统的分析框架已经完全不能支持对超大规模数据的分析需求。对于持续增长的超大规模数据,必须采用可扩展的分布式大数据分析架构。我们在电信内部的公共云平台上成功部署了RSBASE, 以非常经济的计算资源投入实现了对几千亿条记录的实时查询和分析。和国内绝大多数同类竞争产品相比,我们具有非常显著的性价比优势。对用户上网数据的精准查询和分析能力,使得电信部门不仅能更好的解决流量争议问题,更重要的是,电信部门可以通过对用户行为数据的分析,更好的理解电信客户的上网习惯,从而更好地服务客户。基于用户的上网行为分析,还可以应用在精准化营销领域。同时,基于上网行为的数据分析,也对网络质量管理提供了新的视角。

在零售领域,目前我们正在向合作伙伴提供基于O2O的数据采集和分析服务。我们不仅提供顾客购物足迹的采集,更为重要的是,我们提供基于顾客购物足迹的BI分析,传统零售业的百货店、购物中心等经营商可以从中获得重要的运营智能,以及对顾客消费行为习惯和喜好的全方面了解,是现代零售业布局O2O,迎接全渠道销售时代必需的核心能力。

CSDN:关于贵公司的数据可视化模块,能否和大家详细说说?

讯之智:在数据可视化方面,我们主要强调信息展示的实时性、动态性和交互性。我们可以有效地剔除信息噪音,以非常简约和直观的方式向用户传递大量的信息,让数据中暗藏的规律、数据之间的关联性、依赖性,以及数据的趋势性变得一目了然。我们认为,可视化不仅是一种信息展示技术,更是一种允许用户交互的探索式分析技术,我们希望将这两点目标完美地融合并实现。

CSDN:您觉得目前大数据实时分析面临的挑战有哪些?

讯之智:

  • 实时数据分析中的数据海量性
  • 实时的复杂分析 (关联分析、模糊匹配)
  • 实时的非结构化数据处理 (NLP处理相对较慢, 比方说part-of-speech tagging)
  • 实时分析中数据/信息的筛选(权威性,真实性,相关性)
  • 实时分析预测技术

从技术上来讲,对海量数据的吞吐和分析能力一直以来都是非常具有挑战性的技术,目前国内外厂商可以提供相对完善的方案,但是还有很大的可提升空间;在非结构化数据分析方面,还存在不少等待突破的技术障碍等等。

CSDN:公司未来有什么规划?能和我们谈谈大数据分析的前景吗?

讯之智:我们未来的规划就是持续推进大数据实时分析技术在各行业的深层次应用,并且在定制行业应用的同时希望能够探索出一些新的商业模式,研发出一些具有创新意义的通用产品。

关于大数据分析的前景,业界已经有许多精彩的讨论,我就不在此赘述了。如果一定要谈,我想总结一句,大数据技术是已经在发生的,IT产业发展进化的必然趋势,是继个人电脑、互联网、搜索引擎技术之后对人类生活具有最大冲击力的新一波技术革命。

更多云先锋系列文章:

【云先锋】国云:2亿打造的云操作系统G-Cloud架构及应用

【云先锋】SSO365:提供专业IAM解决方案的云身份认证公司 

【云先锋】ClouDil云方案:PB级大数据解决方案 

【云先锋】多备份:云端数据物流平台为企业提供云备份服务 

【云先锋 】上海越诚:基于云服务的建站类iService软件超市 

【云先锋】圣荷赛:来自硅谷的新一代IT交付模式实践者

备注:云先锋系列文章是由CSDN云计算频道打造的,主要报道国内外在云计算、大数据方面具有独特竞争优势的企业,以传播技术为目的,推动中国云计算技术的发展,欢迎投稿。

------分隔线----------------------------
------分隔线----------------------------

最新技术推荐