程序员人生 网站导航

专访郭晓,谈架构迭代以及华云数据基于“云化”的吞噬之路

栏目:互联网时间:2014-10-13 02:47:29

B轮融资获得SIG、英特尔投资的5000万美元,A轮融资金额就达数千万人民币,华云数据究竟以什么吸引了如此多投资方的兴趣。抱着这个疑问,笔者来到了风景优美的无锡,在华云数据的本部走访了该公司的架构与资源部副总裁郭晓。


架构与资源部副总裁 郭晓

是云化还是吞噬

没有电商强大的资源,蓝芒(华云数据前身)只是国内IDC圈中普通的一员。同时,当时蓝芒的道路也并不平坦,比如众所周知的“蓝芒事件”。然而,在2010年成立公司后,当下华云数据已经拥有二百多位员工,技术研发人员上百位,更获得了两笔巨额的融资。而这一切都基于华云数据的云化之道,或者是“吞噬”之路。

CSDN:请介绍一下自己和华云数据?

郭晓:从厦门来无锡一年多的时间,华云刚过来时只有六七个人,当下已发展为二百多人的公司。之前公司总部在厦门,也就是由蓝芒转至当下的华云数据。我从2005年4月大学毕业就加入了蓝芒,所有工作经验也都是围绕着IDC相关,主导了《蓝芒虚拟主机管理系统》、国内唯一支持企业提供商用CDN服务的《蓝芒CDN管理系统》、《蓝芒智能DNS管理系统》、在IDC中最早通过电信研究院测评的《蓝芒工信部备案系统企业端》以及当下IaaS等多个项目。

CSDN:请谈谈华云数据从IDC到云的过渡?

郭晓:那个时候IDC业务已经很不好做,整个IDC圈只有不到15%的毛利,流水达几十个亿的主机商,在售价不到千万美金时也就出售了。当时华云数据可以说是痛下决心,将大客户转给了世纪互联,并在三个月时间内完成90%主机租用用户向云端迁移。OpenStack等开源技术的出现降低了IDC圈云化的门槛,我们华云数据也是从开源项目做起,之后才在调度层面、网络层面、存储层面转向自主研发,当时的云计算服务的各个环节基本上都是使用开源项目打造,不是从底层做起,比如写出KVM、Xen、VMware、Hyper-V等,而是重写资源的调度层,结合在蓝芒多年的IDC运维经验做出符合国内IDC用户使用习惯的云主机产品。

其中有个时间点是2010年左右,IDC托管业务已非常不景气,把大客户转到世纪互联后我们的IDC托管用户已减少到了100个机柜。其实那个时候大规模做云计算并不是最好时机,用户的接受度非常低。

在2009至2010年期间,我们在提升云主机的功能和易用性上做了很多工作,当时的难点在于没有任何参考对象。而在2010年发布1.0版本后,提供的云主机控制面板已经几乎配备了所有主流功能,比如快速重装操作系统,自助重置操作系统密码,自助防火墙等。这段时间运营商的机柜、带宽、IP地址全面在涨价,我们认为云服务的转型已成必然趋势。为了鼓励用户转到云端,当时我们也算是“连哄带骗”吧,许以用户免费时间,承诺较高的故障赔偿,但是这些都可以从云化后资源采购成本上找回来,而用户也切实的获得了利益。同时,为了保护用户的数据安全,每天都进行一个冷备份,之后又实现了基于分布式存储的灾备等。在得到了广大客户认可后,用十几个的机柜支撑了近2000用户,因此也得到了投资方的重视。

从成立公司至今,华云数据的策略一直以IDC云化为主,因为我们深知当下IDC供应商收益的惨淡。围绕这个方面进行开发,通过资源调度系统将各个小的主机商联合起来,形成一个庞大的服务器集群。基于地理位置的不同,许多用户都可以就近选择来获得一个较低的延时。同时,对于不符合标准的主机商,我们也提供了一系列云化的方案,让其拥有自己的云产品。除技术之外,做云计算还有运营和服务,而我们华云数据给自己评价也是“云计算领域最了解IDC,IDC里最会做云计算开发”的公司。

CSDN:在华云数据的介绍中我们有看到“15+城市”、“20+数据中心”、“10000+”物理服务器集群,这个数字有多少是云化而来?

郭晓:全部都是云化来的,目前华云的业务全部都是围绕云计算来开展,IDC的业务已经放着自然萎缩,而且华云数据已经有了自建数据中心计划,可能会在2015年完成一个数据中心计划,地点就在江苏省内,预期可以支撑上百万台云主机服务。

CSDN:在IDC云化过程中,华云数据对这些机房的标准是什么?一般着重强调哪几个方面?

郭晓:其实我们对机房的要求并不高,因为在技术上我们所有的设备都是有热备的,个别的硬件损坏,热备设备会很快自动替换上去。受影响的云主机用户只会感觉到业务中断了一小段时间,对于使用我们HA方案云主机用户或者云存储用户,则感受不到业务中断。

吞噬道路上的技术保障及架构衍变

对比百度、阿里、腾讯这些自建云计算数据中心的公司,华云数据需要做更多的努力,比如不同Hypervisor虚机的异构调度、基于不同虚机调度策略调优等,这里我们从技术的角度上走进华云数据。

CSDN:据说分布式存储开发之前有个小插曲,可否详细谈谈?

郭晓:2013年10月份,这是华云深圳节点的一个故事,因为硬盘批次的质量问题,在深圳机房中,一台磁盘阵列柜上突然出现5块硬盘在6小时内连续发生故障。这种情形,不管你是做RAID 10还是RAID 5,都无法保持服务正常运行。为了保证用户数据安全,在事情发生后,我们立刻断掉了存储阵列的电源,防止数据再被破坏。同时联系了厂商和专业的数据恢复公司,让99.9%的数据得以完整恢复。最后,只有3个用户的数据完整受到了影响,但是关键在于服务停了大约一周。因此,在2013年底,我们提早推出了分布式存储,就是针对这一问题。 

CSDN:那么推出分布式存储后,现在的服务可用率又是什么样的情况?

郭晓:在分布式存储中,我们使用了1备3的机制,同一个数据会保存3个副本,这样可以显著的提高系统整体的IO吞吐率,能达到数倍的效果。同时,将文件彻底打散后,也就是条带化处理,大幅度的提高了冗余,即使坏4到5台服务器都不会影响数据安全,也更有利于故障转移。当然在开源技术的使用上,我们做了大量代码级的调优,比如OpenStack,我们已经无法升级到社区版本,只是单纯使用它做为中间件调度KVM的Hypervisor,其中包括了大量的代码重写。在分布式块存储方面,代码级的调优有一些,但是资源调度上的调优更多,还有就是选择最匹配的硬件。所有的数据在其他数据中心做一份冷备份(24小时),因此,即使有大面积灾难发生,用户最多也只会丢失十几个小时的数据。其实,在分布式存储上,最优硬件组合也是真正的挑战,比如使用什么样的网卡,使用多少SSD硬盘或者多少Flash卡作为缓存,使用多少线程、多少主频的CPU等。

CSDN:您提到SSD,在SSD的使用上,可否详细的说说?

郭晓:现阶段我们主要使用Flash卡做冷热数据分离和HDD的Cache,来加速IO,IOPS有着比较大的提升,这个是我们大多数云主机的标配。目前整个云计算市场价格战趋势明显,从公司运营层面考虑,SSD的容量价格比还不够完美,因此我们接下来虽然会推出纯SSD产品,但是只会应用在中高端云主机上。

CSDN:你提到华云数据只用OpenStack中的KVM管理,OpenStack也很难大规模使用,可否可以详细说说?

郭晓:华云是在2013年初才开始尝试深入接触Openstack,我们的技术人员在测试环境中部署了完整的Openstack,使用了全部已有组件,阅读了Openstack的全部代码,同时我们也对比了IBM基于Openstack的SCE+,IBM和我们当时都判断Openstack不适合大规模的发展。在我们的实验环境下,物理服务器数量到了一定程度的时候(不超过100台),整个网络性能将大幅度下降。当然,我们也看到从Grizzly到Havana再到icehouse,Openstack一直在提升这方面的性能,也许有一天我们会大规模的使用Openstack。但是目前阶段,我们还是以自主开发为主。

CSDN:可否可以做一些SDN方面的相关分享?

郭晓:目前我们做的是软件级的SDN,提供了包括SLB、vFirewall、VLAN等功能、整个系统可以做的很灵活,但是对计算节点服务器的计算性能开销很大,目前我们正在接触一些SDN硬件的厂商,测试他们的产品,也欢迎有合作意向的厂商能联系我。

CSDN:对于华云数据当下的资源复用度能达到多少?

郭晓:华云数据现在复用的是CPU和带宽,内存与存储空间我们不会复用。华云会实时监控CPU和带宽的工作情况,确保它不会影响到用户的体验,其中带宽的复用度平均在10倍以上。同时,基于对某此资源有特定需求的用户,我们也可以提供独享的环境满足他的需求,但是价格上面肯定和普通的用户不一样。

CSDN:刚有说到备份,华云数据的灾备具体是什么样的?

郭晓:我们每天0点都会进行一次完整备份,这个备份会放到其他机房以应对突发灾难。而在年底,我们会推出云备份,这是一个热的备份,可以达到故障转移效果,这将是一个增量备份。当然,不管是异地冷备份,或者是云备份都是收费的,默认免费的是同一数据中心的冷备份。

CSDN:关于政府对数据监控,国内的政策是什么样的?

郭晓:每个ISP都必须安装违规数据监控系统,接入资源管理系统和备案系统,这个系统24小时与工信部的系统对接,政府可以随时下达某个关键词过来,然后ISP系统入库、监控并返回相关数据给主管部门。华云数据的这一套系统已经开发出来,是一朵合规的云,相信在两三年后大家都会与政府对接。其实政府采集的数据不是很敏感,只会收集类似URL等信息。

CSDN:关于数据迁出华云数据服务器上,是否有什么门槛?

郭晓:在华云数据,不管是数据接入还是移出都是免费的,完全不存在绑定。同时,华云数据现在正在开发一个工具,可以一键将应用镜像到用户的本地。当然在数据接入上,无论是华云数据,还是其他国内供应商,都提供了迁入的技术支持,不过华云也提供全自动的迁移工具,帮助用户把业务从物理服务器移到云端。


免费订阅“CSDN大数据”微信公众号,实时了解最新的大数据进展!

CSDN大数据,专注大数据资讯、技术和经验的分享和讨论,提供Hadoop、Spark、Imapala、Storm、HBase、MongoDB、Solr、机器学习、智能算法等相关大数据观点,大数据技术,大数据平台,大数据实践,大数据产业资讯等服务。

------分隔线----------------------------
------分隔线----------------------------

最新技术推荐