程序员人生 网站导航

打破摩尔定律:谷歌与腾讯的下一代计算平台选择是?

栏目:框架设计时间:2016-07-21 08:47:48


(上图为腾讯服务器平台架构师、天蝎计划3.0项目经理王伟

谷歌技术架构高级副总裁Urs Hölzle曾在2015年4月对美国媒体表示,谷歌肯定将切换到下1代计算平台,这就是基于OpenPOWER开放芯片架构的服务器。而谷歌服务器与存储系统设计高级总监、OpenPOWER同盟首届主席Gordon McKean表示,已愈来愈难从现有的X86服务器中“榨取”更好的性能了。

无独有偶,与谷歌研发下1代计算平台一样重量级的是中国互联网公司的天蝎计划。在2016年6月22日OpenPOWER中国峰会上,腾讯服务器平台架构师、天蝎计划3.0项目经理王伟对外流露腾讯已对OpenPOWER服务器做了较长时间的性能测试并对结果表示满意,OpenPOWER也积极参与了下1代天蝎3.0标准与规范研究。

除谷歌和中国的互联网公司外,来自中国的电信公司、大型企业、服务器厂商、软件公司、系统集成商等也纷纭加入了OpenPOWER这1开放芯片架构同盟。

OpenPOWER:X86的另外一种选择


(上图为IBM院士Bradley McCredie)

2013年8月6日,谷歌、IBM、Tyan、NVIDIA和Mellanox1起创建了后来被称之为OpenPOWER基金会的组织,这个组织的目的是就把IBM Power服务器芯片架构开放出来,以类似ARM开放移动芯片知识产权的方式,重新组建1个服务器芯片产业。

尽人皆知,OpenPOWER的目标是创建1个围绕IBM Power处理器架构的软硬件生态系统,从而提供1个替换英特尔系统方案。Power系列服务器1向是高端服务器的代表,但在互联网公司全面转向英特尔X86商用服务器的大趋势下,IBM选择从服务器制造走向芯片设计。

与英特尔至强服务器系列芯片不同,IBM Power是基于高端RISC芯片架构,天然支持数据分析等高性能计算,具有系统更紧凑、效力更高、能耗更低、计算能力更强等特点。目前IBM Power芯片系列已到Power 8版本,将于2017年推出Power 9版本,OpenPOWER则是与之相对应的开源版本。

OpenPOWER芯片的独特的地方在于提供了CAPI、FPGA和NVLink连接3大特性。CAPI即为1致性加速处理器接口总线协议,与传统X86架构下的PCI总线不同,CAPI让外部硬件装备可以直接访问内存而无需通过CPU中转,这样就可以提升操作系统、中间件和利用软件的运行速度与性能。更加重要的是,它让CPU与FPGA芯片更优化地协同工作。

说到FPGA,不能不提到2015年6月1日英特尔宣布以167亿美元价格收购全球第2大FPGA生产厂商Altera。FPGA是可编程的芯片,FPGA与CPU及GPU联动有助于打破摩尔定律的限制,以低功耗到达更高的计算性能,英特尔也意想到了这1点,正把Altera的FPGA与至强处理器结合,向大客户提供高度定制化的芯片。而FPGA全球第1大厂商Xilinx则是OpenPOWER同盟成员,Power 8及以后的架构则提供了独有的面向FPGA优化的CAPI。

NVLink是下1代IBM Power 9的最新特性,是IBM与NVDIA等开发的CPU与GPU和GPU与GPU之间高速大带宽直连通讯的互连协议。为何需要CPU与GPU之间的高速通讯?NVIDIA软件开发技术总监赖豪杰表示,在人工神经元网络等的人工智能计算中,需要在多个计算芯片之间大量数据通讯,这就是NVLink的价值。IBM院士Bradley McCredie介绍说,NVLink可将CPU与GPU的数据通讯从目前的16GB/s提升到40GB/s。

OpenPOWER开放架构为芯片“玩家”开放了从CPU内存到硬件主板再到与系统软件之间的多重核心技术,让“玩家”们可以根据各自的需求定制化自己的服务器芯片。但是,这还不是OpenPOWER最具吸引力的地方。Bradley介绍说,OpenPOWER最高端芯片的价格仅是英特尔至强最高端芯片E7系列价格的1/3还低,但性能却优于E7系列20%~30%,综合性价比是E7系列的3倍,而且OpenPOWER也提供包括L/LC等系列在内的中低端服务器芯片。

作为OpenPOWER同盟的中国首个成员,苏州中晟宏芯信息科技有限公司战略委员会主任卢义远表示,实际测试表明20台Power服务器相当5倍X86服务器即100台服务器的性能。相比之下,节俭的占地面积和功耗都非常可观。随着大数据与云计算爆发式的增长,卢义远认为“不超过5年大家就能够看到X86承当不了这么大范围的云计算。”

谷歌的选择


(上图为谷歌数据中心)

2016年4月,谷歌硬件工程主管兼OpenPOWER基金会总监Maire Mahony在谷歌云平台博客中发表文章称,谷歌与RackSpace共同开发了基于IBM Power 9的开放服务器架构,并将向由Facebook等发起的OCP开源硬件社区提交,从而进入下1代开放服务器设计标准。

Maire称谷歌对计算能力与计算资源的需求是“无情的”,而且绝不会减速。在2008年的时候,谷歌找到了1万亿个网址,如今这个数字是60万亿。为了应对这个巨大的挑战,谷歌硬件工程要确保能够处理异构的计算指令集(即不同的CPU芯片),从而取得最好性价比。

成立于1998年的谷歌在全球运维着上千万台服务器,基于摩尔定律的CPU芯片明显难以满足这样庞大范围服务器群的需求。摩尔定律总有上限,到了上限以后怎样办,这是谷歌工程师从很早之前就开始思考的问题,这也是谷歌会成为OpenPOWER基金会开创成员的缘由。

Power系列服务器以更小的体积提供了更高的性能,这是小型机处理器架构服务器天然优于英特尔处理器架构的地方。Hölzle称常常被问及谷歌是不是斟酌切换到Power架构服务器,而“答案是肯定的”。由于即便是对某1代产品来讲,性价比的提升也是接近20%。

谷歌现在多是英特尔服务器芯片最大的买家,但英特尔至强服务器芯片设计其实不对外开放,如果谷歌要从CPU开始向上控制和优化全部硬件工程,就必须要有自己的服务器芯片。IBM选择开放自己的Power服务器芯片技术,这恰好逢迎了谷歌的需求。要知道,谷歌曾研发了全球性能最强的交换机,缘由是由于市场已有的交换机都不能满足谷歌的实际需求。

现在,谷歌已在自己的数据中心内部运行了基于Power 8架构的定制化服务器,谷歌的开发人员可以根据自己的需求,在这些服务器上部署关键型利用。虽然谷歌没有对外流露这些服务器的数量和在上面跑的具体利用,但谷歌对OpenPOWER架构芯片的态度是“All In”。

而且,谷歌还进1步与托管云及云计算技术厂商RackSpace1起设计了基于Power 9的下1代服务器架构,Power 9的设计预计于2017年正式推出。过去,云数据中心被认为是英特尔服务器芯片的天下,而RackSpace转投OpenPOWER阵营,对英特尔来讲将有深远影响。

腾讯的选择


(上图为中国开放数据中心发展历程)

在国外有谷歌,在国内就是BAT。在国外有Facebook等组建的开源硬件项目OCP,在国内就有BAT等组建的天蝎计划(后更名为ODCC中国开放数据中心委员会)。

ODCC的前身天蝎计划是2011年由BAT共同组建的开源硬件服务器的项目,致力于为中国互联网企业提供开放开源的数据中心服务器,后来随着中国电信、中国移动、中国联通和中国通讯研究院的加入,在2014年天蝎计划正式更名为ODCC开放数据中心委员会,希望为中国全行业提供开源开放的服务器解决方案。

王伟介绍说,截止目前中国大约有23万台天蝎服务器已落地部署,为用户节俭了4⑸亿元人民币,同时减少了7.8万吨大气碳排放。2015年,天蝎服务器新部署了3000多个机柜接近10万多台服务器,占中国服务器市场出货量的5%,2016年预计新增4000机柜接近13万台服务,2017年将接近12%的市场占比。

天蝎整机柜能给用户带来怎样的收益?在TCO整体具有本钱方面,能够给用户带来下降10%⑵0%的收益,同时在故障率方面能大幅下降40%左右,而部署效力上能提高10倍以上。如今,天蝎整机柜服务器不但面向互联网行业用户,还已在电信运营商落地利用,未来在面向政府、企业、高性能计算、高校和金融行业也能够找到更好的利用场景。

从2011年到如今,天蝎整机柜已经历了2.5代的发展。在天蝎1.0的阶段,对服务器硬件架构做了1次重构,把服务器的供电子系统和散热子系统解耦,构成机柜级别的统1供电和统1散热。天蝎2.0对服务器全部子系统做了更深入的标准化和规范化,包括机架子系统、供电子系统、散热子系统、管理子系统和服务器的节点子系统等。

2015年ODCC启动了天蝎3.0的项目研究,目标是希望进1步提高服务器资源的利用率来下降数据中心的能耗。而触发天蝎3.0研究的缘由主要有两个:1是服务器内部各个子系统部件的利用率不1样,造成了不同工作负载下存在部件子系统的资源浪费;2是服务器子系统里各个部件的升级换代周期不1样,造成了服务器研发本钱、运维本钱和交付本钱的增加。

天蝎3.0的目标需要对服务器硬件内部更高的可视化与更细的调剂力度,这就需要类似OpenPOWER的开放硬件架构。IBM与OpenPOWER同盟在2015年加入了ODCC同盟,随后也积极参与了天蝎2.5的标准制定,设计和开源了1款天蝎服务器,可提供高达1TB的内存,内存性能相当于传统中高端服务器内存性能的两倍,而OpenPOWER芯片的磁盘IO能力也能将硬盘和硬盘控制性能发挥到最大化。目前,IBM正参与天蝎3.0的技术研究和规范的制定。

据王伟介绍,腾讯现在有1000PB的数据,每天还在产生接近1.8PB的用户数据和系统日志在产生,每天有5.6万亿条进入腾讯系统的消息需要被处理和分析。因此,腾讯需要1个大范围、高性能的大数据处理平台来处理这些数据,为用户创造更多的价值。

腾讯已进行了长时间的OpenPOWER服务器性能测试和评估,认为OpenPOWER的多核多线程和高内存带宽等特性非常合适大数据等利用场景。另外,OpenPOWER架构可以很好地发挥FPGA与GPU的联动性能,在人工智能领域有出色的性能表现。

ODCC的成员与谷歌的选择非常类似,不管是从突破摩尔定律天花板,还是摆脱英特尔对CPU级的掌控,开源开放的OpenPOWER芯片架构都是更好的选择。IBM OpenPOWER同盟总经理Ken King进1步指出,英特尔芯片愈来愈把计算集中到CPU本身处理,这将产生更多的瓶颈。OpenPOWER则把计算分散到内存、FPGA、网络等多个环节,“把计算资源推向数据,而不是把数据推向计算资源”,这更符合大数据实时分析的需求。

中国军团借力上位

(上图为浪潮电子副总裁李金)

自2013年8月成立OpenPOWER基金会后,也就是IBM公然Power架构至今,已接近3年的时间。对这样1个新的芯片生态,到现在已吸纳了全球24个国家的200多家成员,推出了80多种产品和解决方案,支持POWER+Linux系统的ISV已超过2300家。OpenPOWER生态正在为数据中心带来1场新的变革。

而OpenPOWER自推出之日起,就遭到了中国产业界的极大关注。特别是在国产化大趋势下,服务器芯片国产化是国内技术公司的挑战,而IBM开放Power芯片则无疑是利好消息。IBM大中华区科技战略合作总经理姜锡岫表示,OpenPOWER在国内有30多家成员,触及芯片、主板、固件、服务器、操作系统、中间件、云计算、大数据及利用等全部产业链的各个环节。

在2016 OpenPOWER中国峰会上,浪潮作为国内服务器行业的重量级厂商也宣布推出首款OpenPOWER服务器。浪潮电子副总裁李金说,在大数据、认知、云计算、互联网利用等新兴的工作负载上,看到OpenPOWER架构有着独特的性能和技术优势。浪潮致力于下1代数据中心的研究,结合了OpenPOWER服务器的多架构数据中心能更好的满足用户的各类需求。

中国移动福建公司大数据中心经理谢志崇在2016 OpenPOWER中国峰会介绍说,福建移动公司在5年之前就开始尝摸索索使用Linux On Power技术服务器,现已进入大范围利用,现有200台节点服务器在实际的生产环境当中运行。从电信运营商的角度来讲,1是大范围的数据和用户数量要求非常强的处理性能,2是需要有可靠稳定的系统来保障业务连续性和系统可用性,基于这两点综合测评福建移动选择了OpenPOWER。

固然,OpenPOWER在中国的推行也不是1帆风顺。苏州中太服务器有限公司是国内最早推出基于OpenPOWER开放技术自主研发国产服务器的企业。2014年苏州中太率先加入OpenPOWER基金会,2015年推出国内首款OpenPOWER架构的服务器产品——RedPower。

苏州中太董事长王雪松表示,过去1年用户的反馈表明,RedPower在寻求极致性能和大数据利用领域,其优势相较于x86来讲尤其凸显。RedPower能突破x86没法突破的性能瓶颈,而当面向大数据利用定单数量到达1定范围(几百台以上)时,RedPower积累的性价比极具吸引力。

对OpenPOWER这样1个不到3年的新生态,王雪松进1步表示,OpenPOWER走的是1条不同于x86的路,这就要求用户和服务器厂商必须迅速同享和吸收1套全新的知识体系。特别是目前市面上有大量的利用系统完全是以x86为蓝本优化的,如果用户在购买OpenPOWER产品后并未进行定制优化的话,就没法最大程度发挥其性能,“经过我们的优化后,机器性能到达了优化前的10倍以上。”

当今,中国服务器市场竞争已从硬件主导向利用主导过渡,不再单纯是单1产品的竞争,而是全方位解决方案的生态竞争。随着过去3年,愈来愈多的中国厂商和企业用户加入OpenPOWER阵营,接下来就是软件系统和利用大发展的3年。斟酌到中国有全球最大的互联网公司和电信公司,OpenPOWER生态有可能在中国最早成熟。

中石化金陵分公司在“1025”期间已把智能制造搬到了基于OpenPOWER的混合云之上,“1035”还准备利用大数据、云计算等技术全面提升金陵石化“两化”融会的水平,包括企业感知、协同、分析能力和数字化、集成化、模型化、自动化、智能化等方面。这些都是OpenPOWER能够大显身手的机会。

在不远的未来,对计算性能、数据交换与通讯能力要求更高的区块链、人工智能、虚拟现实、物联网实时数据分析等等,将是激起OpenPOWER生态大发展的杀手级利用。

OpenPOWER同盟和基金会的出现恰恰赶了上摩尔定律行将见顶、中国的国产化浪潮、互联网公司进入下1个阶段、颠覆性新技术行将范围化发展等几大趋势。所谓,风口上,想不飞也难。(文/宁川)

【更多精彩内容 尽在《云科技时期》微信 微信号:CloudTechTime】

------分隔线----------------------------
------分隔线----------------------------

最新技术推荐