程序员人生网站导航

Cloudera：除下Impala支撑部分，一切都将迁移至Spark

栏目：互联网时间：2014-09-18 03:41:53

【编者按】前段时间，Cloudera对比了Spark与Hadoop，取代MapReduce，宣布该公司将加大Spark的投入。实际上，Cloudera已经开始了向Spark的迁移，其中包括了所有Hive SQL-on-Hadoop的部分。同时，Cloudera称并不会使用Spark替换Impala，他们坚信Impala将是交互式SQL on Hadoop查询的未来，处理Hive的速度远超现有的所有软件。

免费订阅“CSDN云计算”微信公众号，实时掌握第一手云中消息！

CSDN作为国内最专业的云计算服务平台，提供云计算、大数据、虚拟化、数据中心、OpenStack、CloudStack、Hadoop、Spark、机器学习、智能算法等相关云计算观点，云计算技术，云计算平台，云计算实践，云计算产业资讯等服务。

以下为译文：

这周的大数据排行榜上有很多关于Spark的新闻，同时还有一些猜测。来自Cloudera的Mike Olson说，他们公司正在广泛拥抱Spark――包括运行Hive――但是不存在替换Impala行为。

对于计划将Hive SQL-on-Hadoop引擎设置在Spark上引来的非议，Cloudera的联合创始人兼首席战略官Mike Olson的回应是“并没有什么改变”。也就是说，Cloudera的Impala的产品没有发生任何变动。然而在Hadoop与Spark生态圈中，巨大的变化正在发生。

Olson表示，正如Cloudera所关注的那样，Impala就是交互式SQL on Hadoop查询的未来，Impala速度高于任何Hive相关产品，即使是Hortonworks出品。

Cloudera联合IBM、MapR和Databricks（Spark发布公司）一起致力将Hive设置在Spark上。Hive的功能是企业迫切需要的，但运行在MapReduce上的Hive却并不能满足用户需求。关于这一点，几家公司已经达成了共识。Olson坚持，Hive本质就是一个运行在MapReduce上的批处理架构，虽然它在Spark或Hortonworks驱动的Apache Tez框架上运行的更快，但仍然是一个批处理作业。

他补充说，实际上，Cloudera等公司正致力于将几乎现存的每一个MapReduce负载都转移到Spark上，像Sqoop和Pig等，Spark具有美好的应用前景，大家相信它将会在不远的未来超过MapReduce。

The Spark stack

有人可能会问Shark应用在哪里。Olson承认Databricks将会把Shark推迟到下一次Spark发布会，这次峰会集中精力在一个公司四月份发布的叫做Spark SQL的项目上。

这段时间，Databricks 的CEO Ion Stoica对数据库行业分析师Curt Monash同样提到了继续开发一个被称为BlinkDB的交互引擎的项目，Ion Stoica说： “如果我要重绘Spark栈图，SparkSQL将会取代Shark，而Shark则会介于SparkSQL和BlinkDB层面中间。”

Olson没有提到BlinkDB，但是他说对于Spark SQL的想法他并不感到兴奋。他承认，Databricks是一个有智慧的公司，也可能会用Spark SQL做一项很成功的任务，但是他补充说，将Hive转移到Spark上并不是一个快速的过程，因为SparkSQL仍是一个进展中的作品。

“我希望看到那些家伙能将他们的努力放在其他事情上”，他说“……我认为Spark框架中的Hive将会做的相当不错”。

原文链接： Cloudera: Impala’s it for interactive SQL on Hadoop; everything else will move to Spark （编译/史臣敏责编/仲浩）

------分隔线----------------------------

上一篇 英特尔加速拓展平板市场更着眼于Phoneblet产品

下一篇 《近匠》Blueware何晓阳，不做中国的New Relic

------分隔线----------------------------