程序员人生 网站导航

【CSDN在线培训Q/A】解析大数据分析服务

栏目:互联网时间:2014-09-29 08:00:01

7月10日,亚马逊AWS 产品拓展经理庄富任在主题为“解析大数据分析服务”的在线培训中,为我们讲述了如何利用AWS Kinesis 实现实时数据流采集和处理, 并配合AWS Hadoop EMR集群分析非结构化数据, 以及数据仓库Redshift 进行高效结构化数据分析,并结合客户案例为例说明这些服务的实际应用场景。


订阅“AWS中文技术社区”微信公众号,实时掌握AWS技术及产品消息!

AWS中文技术社区为广大开发者提供了一个Amazon Web Service技术交流平台,推送AWS最新资讯、技术视频、技术文档、精彩技术博文等相关精彩内容,更有AWS社区专家与您直接沟通交流!快加入AWS中文技术社区,更快更好的了解AWS云计算技术。


为了帮助大家更好的复习本次培训的相关内容,了解AWS云平台数据分析服务的使用技巧及相关资讯,CSDN整理了本次培训最后的QA如下:

Q1:亚马逊推荐将最佳实践存放在S3,这会不会失去数据本地性,例如以前的服务器数据和计算是在一起,现在数据与计算分开是不是意味着处理数据的时候会有延迟?

答:对于AWS来讲,S3与EC2、EMR和Glacier都是在同一个可用区,那么每一个服务都是用高速网络连接在一起,用户几乎感觉不到在做I /O或者是数据的吞吐量的瓶颈,所以这上面不会存在任何的瓶颈。

Q2:如何将业务数据导入到AWS云上?

答:这是用户常问的一个问题,任何一个处理大数据的人都会遇到这个问题,无论用户是在云计算上还是自己购买存储设备,都会遇到数据载入的问题。
对于AWS云来讲,亚马逊提供很多不同的工具,第一个最简单的就是用互联网,只要用户的互联网出口带宽是足够的,因为不同公司的出口带宽也都不同,但只要出口带宽能保证,就能进入互联网,就不会有瓶颈。另外,S3提供了一个切片工具,比如一个文件有100M,切片工具可以将其切成10个小文件,上传到互联网,然后S3会自动将文件进行聚合,这是其中的一个方式。第二个方式是专线传输,如果用户的数据很大,达到PB级别的话,就可以通过专线传输到AWS云。

Q3:如何保证数据的安全性?数据保密性达到什么程度?

答:从分析层面来看,第一,数据上传到AWS云上是一个网络的传输过程,其中当然有一些加密的工具,用户可以将数据进行加密来保存,数据的传输是一个加密的过程,只要数据传输到AWS云,亚马逊当然也提供一些在存储方面的加密工具,用户可以根据需要进行加密。
重点是只要用户的数据上传到AWS,那么亚马逊都不会去看或者是移动用户的数据,总之亚马逊能够保证不移动或是查看用户的数据。

Q4:PB级的数据处理是否推荐MySQL?

答:如果用户知道MPP数据的发展或是关系型数据库到所谓的以列存储的MPP数据仓库的演进,都应该知道这些都是为了取代关系型数据库的,所以如果说是PB级的数据分析,我认为并不那么适合用MySQL。

Q5:RedShift是否可以达到像EMR水平扩展的性能?

答:可以的,EMR没有限制说用户需要几台机器,你要100台或者1000台都没有问题,因为对于Hadopp这个框架来讲就可以达到这么多,对于Redshift数据仓库来讲,目前是可以达到100个节点,亚马逊有一个不断的演进,目前PB级适用于大部分的实例,扩充到100个或200个节点的时候,亚马逊会不断去做一个产品的评估,事实上MPP级数据,数据仓库就足够用户使用。

如您需要了解AWS最新资讯或是技术文档可访问AWS中文技术社区;如您有更多的疑问请在AWS技术论坛提出,稍后会有专家进行答疑。

------分隔线----------------------------
------分隔线----------------------------

最新技术推荐