移动互联网时代,大量的移动设备的出现,为社会创造了海量的数据。如今,我们能看到许多企业、机构正在探索与挖掘数据中的“金矿”。伴随时间的脚步,海量数据的价值逐步得以实现并最终爆发――彼时,我们将真正进入大数据时代。
如何获得大数据时代的“船票”,作为拥有海量数据及处理能力的公司――百度在这方面已开始快速布局。通过参与百度技术开放日,并结合百度之前的系列动作,笔者对百度的战略有一些新的观察和思考。
今年年初,笔者在央视上看到百度迁徙的大数据应用案例,随后又看到了百度预测产品(挺有意思的预测,大家可以试试),百度在大数据方面的动作已若隐若现。
当然,大数据的价值仅仅如此肯定不够,用百度高级副总裁王劲的话说,“百度迁徙、百度预测只是百度在大数据上的小试牛刀”。而在“小试牛刀”过后,百度将在大数据上做什么? 在第四届百度技术开放日上,一切浮出水面。
技术开放日是百度对外展示技术发展的重要会议,笔者有幸知悉了前三期的活动情况,了解到许多前沿技术的应用与发展趋势。与前三期主要是技术人员出场不同,近期举办的第四届开放日拥有非常豪华的嘉宾阵容,百度CEO李彦宏、百度高级副总裁王劲、副总裁朱光及一批总监级人物登台,中科院院士怀进鹏、高福等学术界、产业界的人士也来助阵。会议阵容的豪华,从一个侧面反映出百度对此次会议的重视程度。
百度CEO 李彦宏
之所以重视,因为百度在会上发布了具有战略意义的大数据引擎。百度将开放云、数据工厂、百度大脑三大组件在内的核心大数据能力开放,通过大数据引擎向外界提供大数据存储、分析、挖掘等技术与能力。关于大数据引擎的概念,业界对此已有详细的描述和讨论,笔者就不再累述,有兴趣的朋友也可以看看他们的网站。
发布大数据引擎的核心意义是什么?在笔者看来,就是通过解决痛点,吸引合作,最终建立生态。大数据产业要发展,两个关键问题亟待解决,一个是数据的共享,即不同领域数据的流通、关联,另一个则是技术性问题――数据如何存储、计算、分析,最终实现商业价值(这些问题笔者之后会详细分析)。这正如王劲所言“海量数据存储、关联、分析是大数据时代的关键”。
百度高级副总裁 王劲
而百度大数据引擎针对这几大核心问题提供了解决方案,打通大数据发展路上的堵塞之处,使大数据能够真正地发挥出巨大价值;抓住这些价值的企业能够获得更大的竞争优势,于是,越来越多的传统行业加入进来,逐步形成繁荣的生态系统。
也许有人要问,为什么认为百度就能成功建立生态、拿到船票?笔者认为,答案就在大数据引擎的三大组件上。
正如上文所述,大数据产业发展的一个关键是解决技术难题,主要表现在海量数据的存储与计算、数据的挖掘与分析等方面。这些技术听起来似乎很简单,实则有着极高的门槛和难度。北航校长、中科院院士怀进鹏在会上就这样描述,在大数据时代,一些原有的计算理论可能遭遇到了挑战,急需新的理论和思想。
北航校长、中科院院士 怀进鹏
先说说存储与计算。企业拥有海量数据只是存储与计算挑战的一个方面,而更大的挑战则来自不同企业、不同行业间数据流通与关联之后。要知道,不同领域的数据关联不是“加”的关系,而是“乘积”的关系。本就巨大的数据,在关联后成指数倍增长,如何计算这样的海量数据,成为无法回避的问题。
百度大数据引擎的组件之一――开放云解决的主要就是存储与计算问题。
据百度大数据部总监李钢江介绍,百度开放云可以支持EB级别的存储,单一集群可管理百亿级文件;数据处理能力达上百PB/每天,拥有毫秒级响应能力。此外,百度数据中心已拥有并顺利管理着数十万台服务器规模,数据中心去年年均PUE(国际上衡量数据中心能效的指标,越接近1越好,行业均值为2)为1.32,最好时达到1. 16。这使得百度数据中心比行业其他机房平均省电30%到40%,造就了百度存储和计算方面低成本优势。
数据存储之后,进行数据查询也是一大难题。“例如,我们买了很多书,存到大型图书馆中,然而没有好的查询引擎,书很难被利用起来。”李钢江表示,百度大数据引擎的“数据工厂”组件,就能够提供快速的大数据查询和分析服务。
在过去的小数据时代,我们常用SQL做小数据查询,但在大数据时代,这些数据库服务都没法很好地发挥作用。“而百度数据工厂则可以支持单次百TB级别异构数据查询,数据扫描能力达到百GB/秒,单集群并发查询能力达到十万QPS,即每秒可并发处理十万量级请求”。
也许这些技术语言已经把你绕晕了,不过就笔者所知,这些能力称之“世界领先“并不为过。而另一个值得称道的能力就是“智能化”――让机器拥有人类的思考能力。百度大脑就是这样的一个组件。
“人脑是最大的神经网络系统,神经元达数千亿,而百度大脑类似人脑,目前已成为拥有两百亿参数的深度神经网络,是业界最大规模神经网络系统。我们每天将获得的各种各样的数据灌入系统中,使系统像人脑一样无时无刻地学习和成长,无时无刻地进化与演进,并最终将发展成非常智能的人工智能系统。”百度深度学习研究院常务副院长余凯在会上介绍了百度大脑的特征。
据悉,百度大脑目前的智商相当于两三岁小孩,能很好地处理语音、图象、文字,而这些技术和能力已经实际应用在了百度许多产品与服务中。
开放云、数据工厂、百度大脑,这些高门槛的技术能力无疑成为百度拿到大数据时代“船票”的核心竞争力。
如今,企业、公共机构自身都拥有众多数据,他们或多或少地利用这些数据来服务业务,但这就是大数据的真实价值么?笔者认为,这只是大数据的一个初级阶段,即自身大数据的利用;而大数据的价值要得到爆发或升华,应该是跨企业、跨行业数据的相互融合。用技术一点儿的词来说,就是将不同领域的数据进行关联。
数据关联的重大意义,借用王劲在技术开放日上举的一个例子可见一斑。“现在,已经有很多可穿戴设备能够24小时全天候监控我们的健康状况,包括了血压、心跳、睡眠状况、运动状况等。当我们把这些检测数据跟医院数据关联以后,就会在个人、医院、保险企业产生出新的价值点。”王劲以心脏病为例,“中国每年有很多人得心脏病,如果我们拥有很好的计算能力,就能够从众多患者的24小时监控数据里头找到心脏病发病的共性。当某个人出现这种特性的时候,医院提前发出预警,提醒预防。预防的代价远远低于治疗的代价,这不仅降低了人们看病支出,生命健康也能获得了更大保障。而提供预警服务的医院,能在竞争中争取到更多病人的认可,得到更大的机会。同时,还有一个角色可以参加进来,就是保险公司。参与到这种预防模式下的保险公司,可以降低赔付率,进而提升利润率。”
例子描述出了可穿戴式设备、医疗、保险行业间,数据关联后产生的结果――人们生命获得了更大的保障、医院获得了更多的机会、保险企业获得了更高的利润。这个例子所反映出的大数据价值只是冰山一角,巨大的金矿正待挖掘。
不过,数据关联说起来简单,实则是最难实现的一个环节。因为它已不是只靠技术就可以解决的问题,这涉及多方利益平衡、数据保密等问题,需要整个产业携手推动。百度就通过大数据引擎开放关键能力,吸引外部企业、机构进行大数据方面的合作,促进数据的流通与关联。
据了解,百度已经和交通部门、疾病防治中心、平安保险等进行大数据合作,走出了大数据发展的关键一步。如,交通方面,将探索推进交通运输政府管理部门的某些应用迁移至百度云平台,并利用百度强大的数据分析能力,对行业监测数据进行挖掘分析;疫病预防方面,结合百度搜索数据、流感样病例和病原学哨点监测数据,分析相关性,研究并建立不同地区流感预测模型;保险方面,平安保险将通过与百度的大数据合作,探索提供个性化金融服务。
在笔者看来,通过打造大数据引擎,百度突破了传统互联网服务,开拓出的一个全新的业务发展空间,这种方向上的创新不可谓不大。用业界比较常用的说法,腾讯通过微信拿到了移动互联网时代的船票,而百度则是通过大数据引擎拿到了下一个时代――大数据时代的船票。把百度登上的这艘船比作航母并不为过,因为它不仅限于互联网这个行业,而是涉及到所有行业。