程序员人生 网站导航

百度技术委员会理事长陈尚义:百度大数据引擎

栏目:互联网时间:2014-09-06 01:07:42

【CSDN现场报道】第六届中国云计算大会于2014年5月20-23日在北京国家会议中心拉开帷幕。本次大会立足实践,以国际化的视野,帮助与会者了解全球云计算技术的发展趋势;从应用出发,探讨交通、医疗、教育、金融、制造、数字娱乐等行业领域的实践经验;并通过技术专场、产品发布和培训课程等方式,深度剖析云计算大数据的核心技术。

百度技术委员会理事长 陈尚义

在第六届中国云计算大会的全体会议上,百度技术委员会理事长陈尚义的演讲主题是“百度大数据引擎”,他首先为我们回顾了大数据的发展历史,从2011年的4V界定,到2012年的政府立项,再到2013年的行业间交流合作,再到现在的传统行业纷至,大数据以成为当下最火的技术。然而,当下大数据的执行却面临着太多的挑战:数据孤岛,价值未知;数据积累,成本激增;技术瓶颈,智能缺失。随后,陈尚义更以百度的大数据实践为背景,对数据存储、计算、呈现进行了分享。

以下为演讲实录:

非常高兴有机会跟大家一起交流一下百度的大数据引擎,这是上个月刚刚对外发布的一个计划或者行动。

刚才王博士的讲话给我留下了一个非常深刻的印象,他提了一个问题,说现在讲云计算已经不怎么时髦了,现在讲大数据比较时髦,过三个月之后,不知道什么东西更时髦。在这里我想试图回答一下王博士的问题,所以我今天讲的题目就叫“大数据引擎”,如果明年我还在这里讲的话,我一定会跟大家讲人工智能,跟大家汇报一下百度人工智能最大的进展。

大家也许知道,上周五,我们在大西洋彼岸,设了一个百度的硅谷研究院,其中有一个实验室,我们聘请了原谷歌的一位工程师加入我们,明年希望能够跟大家汇报我们工程方面的进展。现在我们给大家讲一讲这个时髦的话题,就是百度的大数据引擎。

我汇报分为四个部分,第一部分,我觉得大数据已经到了一个新的阶段,为什么这样讲呢?我记得在2011年前后,其实那个时候并不是说云计算和大数据是相对排斥的,那时候我记得很清楚,CSDN的刘总就讲了它们之间的关系,当时是跟我们的首席科学家探讨的,那时候我们已经看到了云计算和大数据之间的某种关系。

一、 大数据发展史

当然,那时候有一个现象,大家都是在谈论大数据,试图对概念进行理解。让我印象比较深刻的就是大家试图解释四个V是什么含义。当时仅仅是谈谈而已,当时有很多的会议,还有大数据专业委员会。

有一个朋友问我一个问题,现在大家都关注云计算,但是政府没有关注,紧接着2012年前后,政府开始部署大数据,标志事件就是各地省政府和地方政府都把大数据作为战略,提到非常高的高度,我印象中咸阳新区等,还有国家一些重大科技专项和科技计划项目把大数据列入支持对象。这时候开始,政府开始关注云计算和大数据。

第三个阶段,大家就开始找自己的数据资源,以及它能创造什么价值,就是大数据的价值探索。我记得比较清楚的是大家都互相交流,有数据的企业或者是行业找有数据处理能力的企业交流,有数据能力的企业反过来去找数据资源丰富的企业进行交流。这个时候,他们对数据资源的开发利用进行了探讨,一个标志性的东西就是跨界的交流。

现在我认为大数据到了一个价值挖掘的阶段,我有机会接触到全国做数据方面的一些企业,但是都是打着大数据这么一个招牌去谈论他们在数据方面所做的工作。但是,很显然他们已经在做实实在在的一些事,这个是我们目前2014年所处的这么一个阶段,在这个阶段里头,我认为他们存在着一些问题,我这里讲的是误区,或者说是一些现象。这个现象不见得是不积极的,至少说明我们对数据价值的认识已经到了非常高的地步,而且我们也提出了很多具体的实际行动。比如说他们把过去我们所做的舆情分析、把过去我们做的BI都进行了大数据挖掘,所用到的传统技术也不是今天大家坐在一起讨论的大数据方面的一些新的技术和方法。

所以,我们把数据当做大数据,把传统的技术当做大数据的技术,他们挖掘这个数据价值,他们缺乏大数据所必须面对的挑战,它的这些新的特征。 

在这个阶段里头,我们最需要做的事情,就是我们必须得看到真正的大数据不是那样,真正的大数据一定是高速成长的,它的成长速度,大家都知道现在的摩尔定律,它的膨胀速度是你不可想象的,对成本的压力是你不可想象的。这是第一个。第二个,我们必须要开发新工具和新平台,去满足大的数据规模和高速膨胀的需求,这是我们需要想到的,而不是说我们停留在过去所做的关于数据方面的一些工作而满足。在刚才我说的第四个阶段,迫切需要做这样一些事情,克服我们的误区,然后才能赢得一个新的机会。这是我汇报的第一个方面。

二、 行业大数据面临的挑战

第二个方面,跟大家介绍一下通过我们和行业的交流,因为刚才讲了,我们其中有一个阶段,我们跟很多的传统行业交流,如何挖掘大数据的价值,因为他们知道百度是一个大数据处理企业,他相信我们可以帮到他们。所以在交流过程中,我们也实实在在感觉到各个行业面临的一些问题。

行业挑战1:数据孤岛,价值未知

第一个困难就是数据孤岛,大家有没有想到所有的数据产生,都有它的第一个作用,否则,它不会产生。这个数据都积累起来,最后它一定有第二个作用、第三个作用,比如说百度的相册里存了很多关于我们每一个网民存放上去的各种图片,当图片积累到一定程度的时候,我们就可以发现当年流行的那个趋势是什么。我每天早上有一个习惯,起床以后站到窗户照一张照片,对生活做一个记录,但是多了以后,我每天把照片放在一起的时候,我很容易的就发现这一年天气变化的轨迹,我甚至可以预测未来的趋势,这就是第二个和第三个作用。 

还有一个就是行业数据如果不和其他的数据进行联合、进行交易的话,它的数据价值是非常有限的。比如说银行的数据如果不跟互联网搜索数据结合起来的话,那它纯粹只是做银行原来的事情。比如说保险数据如果和医疗数据不结合起来的话,它们之间的价值流失就会很多。总而言之,数据存在着孤岛现象,他们对自己数据价值的认知存在着一些误区。

行业挑战2:数据累积,成本剧增

第二个挑战,就是数据的累积,真正的大数据成长速度是指数级的,所以给我们带来的挑战很大,包括我们的IT成本。右边这是一个真实的服务器增长的速度,5年涨25倍,基本上按照摩尔定律在增长。我们相信在座的都知道,这意味着什么?比如说一个大型的医院现在是100台服务器,三年以后就将近1000台服务器,这对系统成本的压力是巨大的,如果你不好好利用的话,那这些数据会成为你一个很大的负担。

行业挑战3:技术瓶颈,智能缺失

第三个挑战,就是我们要迎接大数据下一个阶段的话,你必须要有很强大的技术,这些技术我可能现在并不知道它是什么技术,必须有强大的技术、必须有强大的平台、必须有数据挖掘这些智能的东西,发现数据的价值规模,才能够各个行业的需求。

这是我讲的三个方面,即使你有钱买得起那么多处理器,但是你的成本可能受不了,你的计算能力可能达不到。第二方面是从海量、超大规模的数据里,比如说百度从PB数据里如果找到想要的数据,在一定时间内找到,你就需要非常强大的数据管理,然后再网上是缺乏数据智能技术。

三、 百度大数据实践

第三部分,跟大家汇报一下百度在大数据方面所做的一些工作,有的大家可能已经知道了,有的可能还不知道。第一个方面,由于数据规模的迅速膨胀,大家知道因为百度天生就是大数据企业,从它成立第一天开始就收集全网的数据,这个数据的增长速度,我们感受非常的深刻。所以,我们在后台必须得做很多的工作和准备,一个是规模大,另外一个是成长快。这种情况下,我们必须得有一套办法来节省成本,提高部署效率,才能够满足大规模数据超高效的价值。

我们使用ARM服务器,在特定领域,比如说在存储为主方面,它有它独特的作用,它效率比较高。另外一个就是用图形处理器代替CPU,同时,我们在整机柜服务器,顾名思义是把很多服务器放在一个柜子里,这样处理起来会很快。由于高速的数据增长需求,我们必须提高部署的效率。再一个就是万兆交换机,使得我们作布线方面,节约成本方面提高了很多。

再一个就是在数据中心方面,数据中心方面规模是第一位的,我们现在建了很多大型的数据中心,北京、山西、内蒙建了超过十万台,70万个CPU,4000舞台服务器,数据中心亚洲第一,现在PUE1.32,最佳的达到1.16。一年下来,由于采用了服务器方面、数据中心方面,把各方面根据百度的优化和机制,使得我们的成本降到50%。

百度在大数据方面实践还有很多,有搜索,这是百度的老本行。我想提醒一下,这个跟传统的搜索结果不一样的是,过去的搜索是你点关键词,出来若干链接,如果你觉得是好的,就结束这个搜索。如果你不满足这个需求,就要往下去找。这个搜索不是这样,这个例子是说“中国好声音”这么一个关键词,出来的结果是什么呢?是关于《中国好声音》比较权威的描述,底下小图片是里面的歌手,右边是跟《中国好声音》相似的节目,比较好的满足了用户的需求,提高了用户体验,节省了用户的时间,别看小小一个变化,背后是大数据,因为要从上千亿网页里头知道《中国好声音》是一个节目,以及和这个节目相关的其他节目,以及节目当中的歌手,要从海量的数据里把这个关系找到,建立一个知识库,我们叫知识图谱。大家不妨可以体验一下,可想而知背后的大数据处理提出了极高的要求。

还有一个,百度的商业模式是后代有人做推广,俗话叫广告,他们要给百度付钱。他投广告不能乱,一定要精准的,根据用户的关键字,他的广告投放要有相关性,这样点的人才没有白费钱,广告的投放商才省钱。这个背后也是大数据,因为要对用户的行为进行仔细的分析,使得广告投放的结果和用户搜索关键字之间具有相关性。

再一个就是在大数据的驱动之下,刚才我讲了,明年我们会讲到人工智能,目前百度在人工智能方面已经走得很远,这是一个例子,语音。现在很多百度的用户已经知道,无论是搜索还是其他方面都可以提供语音的支持,但是背后是大规模的数据对语音识别的模型进行训练,所以我们才有优势,所以我们才在过去一两年的时间里,我们刚刚起步就迅速地突破了所有的约束。

人工智能方面另外一个就是图片搜索,你输入一个图片要找到相似的图片,比如说你输入一张照片,然后就可以找到全网的关于你的照片出来,这项技术跟语音识别技术有点类似,后面是大规模的模型训练的结果。左边搜出来的基本上都是形状颜色相似的照片,右边这个是另外一个很强大的竞争对手,他们出来的结果。

还有自然语言的理解,还有翻译。自然语言的理解对客户来说非常重要,为什么?网民的搜索是随心所欲的,这是一个很强大的挑战。翻译也是一样,过去是基于规则的翻译,基于规则的自然语言的理解,现在已经敌不过我们基于统计的自然语言的理解,背后是大数据和技术在做支撑。

百度还在另外一个方面做了实践,就是做预测。这里有一个网站,是rtends.baidu.com,大家可以去看看,我们对一些事情可以做比较准确的预测。

大家看电视也好,看别的新闻也好,可能都知道百度在今年春节期间非常生动、非常形象的描绘了春运人口的迁徙情况,为什么我愿意在这里分享?因为我被震撼了。中国春运人口迁徙是人类历史上规模最大的迁徙,我们看到的是这张图,但是背后它有数据的采集、存储、处理和展现,大家都知道数据的展现本身就是大数据的一个核心技术。

四、 百度大数据引擎

最后跟大家分享一下百度的大数据引擎。这是大数据引擎的示意图,这个图怎么看呢?我告诉大家一个技巧,首先我们看中间一块,就是黄色、绿色、蓝色,这是大数据引擎本身,然后我们再看上面和下面,下面是百度的数据、行业的数据,上面是行业的价值、行业应用。然后再看每一个核心的部分都有三个向上的箭头。

我解释一下,内核三个部分,第一个部分就是开放云,开放云大家可能都不陌生,过去我们在移动上已经做了移动开放,就是百度开放平台,即百度云,我们对中小开发者已经开放有几年了,在这上面有几十万个开发者,有很多的应用,已经取得了成就。这里头的开放云除了内部之外,还包括对行业进行开放,包括这种分布式的存储、计算等等。

然后再往上面一个是数据工厂。数据工厂顾名思义是对数据进行加工,有大量行为点击的数据,要把它变成结构化的、较小的数据,从超大规模的数据里迅速找到所需要的数据,这是数据工厂部分的功能。

最上面百度大脑,这里头有百度所有的关于数据方面的智能,这个相当于机器人的智力水准,它能认出一张照片上的是人还是猫,就是想把数据变成智能的,或者说通过大数据,以它为基础开展人工智能的工作。

底下是百度的数据加上行业的数据,这个行业也可能是一个行业,也可能是几个行业,这样既克服了数据孤岛问题,同时又解决了数据联合起来创造更大的价值。

向上的三个箭头分别表示我们系统上运行的每一个层次都可以单独对外开放,开放云的技术指标,在数据的规模方面,刚才已经讲到了,百度的数据未来还会迅速增长。在数据中心的规模方面,我们已经达到的超过10万台。然后在数据工厂这个层面,如果你是高并发、查询结果比较大的话,在一秒之内能够扫描100个GB,反过来如果是小规模的查询,并发比较高的话,能达到10万qps。

在深度学习方面,百度的这个机器可以无时无刻,24小时不间断学习,可以告诉大家,我们有200亿的参数,它是世界上规模最大的人工神经网络。

刚才讲了半天大数据引擎,它由三个部分组成,开放的云加上数据工厂,加上百度大脑,这个引擎对行业来讲有什么意义呢?我们看一看几个例子,第一个,我们对跟旅游行业结合,我们就可以比较准确的预测某一个城市的热度和某一个拥挤的程度,在预测一个景点的时候可以提前到两天。

然后百度和健康产业结合的话,我们也会产生新的价值。比如说我们和中国疾病控制中心简称CDC合作,我们就能准确的预测到某种疾病蔓延的趋势。右边这张图有两条曲线,一条是红色的,一条是蓝色的,这两条线的变化走势非常相似,这就是预测和实际结果的对比。过去我们有一个比较粗糙的数据,就是百度的搜索数据加上医院收集到的临床数据进行预测,未来我们还会更加精确,因为我们有更多的数据可以供预测,比如说我们有人口迁徙的数据,也多种APP的数据,地区的数据等等,这些数据都可能被用来做疾病模型的趋势预测。

还有一个是跟商业的结合,所有用大数据精准营销的,都可以用这种引擎,它背后是大数据的支持。可以看看这个例子,左边是各种在线的数据,用户用百度知道、百度空间,通过对用户行为的研究,来精准的投放广告。右边是说零售商或者是他们自己用购买的数据来进行商业决策,然后他们的每一个客户体规精准化、个性化的服务。两者互为影响,使我们的广告更加精准,使他们的商业服务更加个性化。

总而言之,百度在大数据方面积累的能量,是我们积累的技术平台,未来百度的这些能力和平台会继续为各位合作伙伴提供服务,这是我们的网站,大家如果感兴趣的话可以去上面了解更多。非常感谢,谢谢大家!

更多精彩内容,敬请关注第六届中国云计算大会专题报道,关注新浪微博直播 @CSDN云计算。

------分隔线----------------------------
------分隔线----------------------------

最新技术推荐