大数据初步调研

栏目：综合技术时间：2016-11-11 08:53:28

Ò大数据初步调研

Ò2014⑷月

Ò“大”数据的直观含义

Ò算法上：处理中小范围数据调入内存履行，在大数据（超大范围数据）不能直接应用了

Ò1个时期的大数据是下1个时期的小范围数据

Ò99年对“大”数据分析的技术策略对现在的大数据分析仍然相同：

机器学习+高性能计算+并行散布式高效存储

Ò机器学习与数据发掘

Ò参考1：《机器学习与数据发掘》周志华，南京大学计算机软件新技术国家重点实验室

Ò机器学习：利用经验来改良计算机系统本身的性能。“经验”在计算机系统中主要是以数据的情势存在的。

Ò数据发掘、知识发现：试图从海量数据中找出有用的知识。

Ò雄关慢道----机器学习（人工智能）的发展

Ò机器学习是人工智能发展到1定时期的产物。

Ò20世纪50年代到70年代——“推理期”：逻辑理论家程序，通用问题求解

Ò20世纪70年代中期开始——“知识期”：大量专家系统，但瓶颈是人总结知识教给机器困难。

机器自己能够学习知识！

Ò雄关慢道----机器学习（人工智能）的发展（续）

Ò1950——图灵测试：提到机器学习的可能性

Ò20世纪50年代——主要集中在基于神经网络的连接主义学习：感知机，Adaline

Ò20世纪6、70年代——多种学习技术初步发展：以决策理论为基础的统计学习技术、强化学习技术（跳棋程序、学习机器，统计学习理论的重要结果），基于逻辑或图结构表示的符号学习技术（结构学习系统、基于逻辑的归纳学习系统、概念学习系统）。

Ò雄关慢道----机器学习的发展

Ò20世纪80年代——机器学习成为1个独立学科，各种技术百花齐放

Ò雄关慢道----机器学习的发展（续）

Ò从例子中学习，即广义的归纳学习，即从训练例中归纳出学习结果。

É涵盖了监督学习（例如分类、回归）、非监督学习（例如聚类）等众多内容。

É20世纪90年代中期之前——

Ð归纳逻辑程序设计，是机器学习和逻辑程序设计的交叉，问题在学习进程所面临的假定空间太大，不合适大范围问题。

Ð基于神经网络的连接主义学习，著名的BP算法，缺点是大量的经验参数。

Ò雄关慢道----机器学习的发展（续）

É20世纪90年代中期——统计学习

Ð支持向量、VC维、结构风险最小化原则

Ð有效的支持向量机算法

Ð支持向量机中的“核方法”被用到机器学习的每个角落

Ð缺点是核映照的选择仍然依赖经验

É统计学习与连接主义学习1样是基于“属性-值”表现情势，难以有效表示复杂数据和数据关系

É常常需要对问题作出假定，来保证统计性质

Ò雄关慢道----机器学习的发展（续）

Ò参考2：T.G.Dietterich.Machine learning research: Four current directions.AI Magazine, 1997, 18(4): 97⑴36.

ÒThefour directions are

É(1)the improvement of classification accuracy by learning ensembles of classifiers,集成学习

É(2)methods forscaling up supervised learning algorithms,可扩大机器学习

É(3)reinforcement learning,强化学习

É(4)the learning of complexstochastic models.随机模型

Ò数据发掘

Ò数据发掘是1个直接为实际利用而生的学科领域。

Ò数据发掘遭到了很多学科领域的影响，其中数据库、机器学习、统计学无疑影响最大。

É数据库提供数据管理技术，机器学习和统计学提供数据分析技术。

É从数据分析的角度来看，绝大多数数据发掘技术都来自机器学习领域。

Ò数据分析？= 机器学习的简单利用

Ò区分：传统机器学习很多技术为处理中小范围数据设计。例如：传统决策树算法把所有数据读到内存中

É数据发掘界的改造利用：引入高效的数据结构和数据调度策略等来改造决策树学习进程

É海量数据对算法设计带来巨大挑战

Ò关联分析----数据发掘学科的独特的地方

É少许数据时，直接使用统计学知识便可；困难在于海量数据。

Ò会议期刊

Ò在机器学习方面，最重要的学术会议是NIPS、ICML、ECML和COLT，最重要的学术期刊是《MachineLearning》和《Journalof Machine Learning Research》；

Ò在数据发掘方面，最重要的学术会议是SIGKDD、ICDM、SDM、PKDD和PAKDD，最重要的学术期刊是《DataMining and Knowledge Discovery》和《IEEETransactions on Knowledge and Data Engineering》。

Ò另外，人工智能领域的顶级会议如IJCAI和AAAI、

Ò数据库领域的顶级会议如SIGMOD、VLDB、ICDE，

Ò和1些顶级期刊如《ArtificialIntelligence》、《Journalof Artificial Intelligence Research》、《IEEETransactions on Pattern Analysis and Machine Intelligence》、《NeuralComputation》等也常常发表机器学习和数据发掘方面的论文。

Ò1图了解数据发掘算法

Ò国际权威的学术组织theIEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据发掘领域的10大经典算法：

ÒC4.5（分类决策树算法）,k-Means（1个聚类算法，把n的对象根据他们的属性分为k个分割）,SVM（支持向量机，1种監督式學習的方法，它广泛的利用于统计分类和回归分析中）,Apriori（1种最有影响的发掘布尔关联规则频繁项集的算法）,EM（最大期望(EM，Expectation-Maximization)算法是在几率(probabilistic)模型中寻觅参数最大似然估计的算法）,PageRank（Google算法的重要内容，PageRank根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。）,AdaBoost（1种迭代算法，其核心思想是针对同1个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成1个更强的终究分类器(强分类器)）,kNN（K最近邻(k-NearestNeighbor，KNN)分类算法）,NaiveBayes（朴素贝叶斯模型分类）, CART（Classification and Regression Trees分类与回归树）。

Ò大数据分析的技术策略

Ò机器学习+

高性能计算 +

并行散布式高效存储

Ò大数据领域10大巨头（CSDN评）

Ò开源大数据技术（CSDN评）

ÒApacheHbase:大数据管理平台建立在谷歌强大的BigTable管理引擎基础上。作为具有开源、Java编码、散布式多个优势的数据库。

ÒApacheStorm:用于处理高速、大型数据流的散布式实时计算系统。

ÒApacheSpark：采取内存计算，从多迭代批量处理动身，允许将数据载入内存做反复查询，另外还融会数据仓库、流处理和图计算等多种计算范式，Spark用Scala语言实现，构建在HDFS上，能与Hadoop很好的结合，而且运行速度比MapReduce快100倍。

ÒApacheHadoop：成了大数据管理标准之1。平台的灵活性使它可以运行在商用硬件系统，它还可以轻松地集成结构化、半结构化和乃至非结构化数据集。

ÒApacheDrill：通过支持HBase、Cassandra和MongoDB，Drill建立了交互式分析平台，允许大范围数据吞吐，而且能很快得出结果。

Ò开源大数据技术（续）

ÒApacheSqoop:采取并发连接，可以将数据从关系数据库系统方便地转移到Hadoop中，可以自定义数据类型和元数据传播的映照。

ÒApacheGiraph:功能强大的图形处理平台，具有很好可扩大性和可用性。

ÒClouderaImpala：Impala模型也能够部署在现有的Hadoop群集上，监视所有的查询。

ÒGephi:用来对信息进行关联和量化处理，通过为数据创建功能强大的可视化效果。还可以对复杂的IT连接、散布式系统中各个节点、数据流等信息进行可视化分析。

ÒMongoDB:MongoDB是1个利用开源技术开发的NoSQL数据库，可以用于在JSON这样的平台上存储和处理数据。

Ò“大数据”的技术基石

Ò众多环绕数据库的技术

Ò对信息进行关联和量化处理和展现可视化效果

Ò计算、图形处理

Ò大数据开源框架之1HADOOP/MAPREDUCEHBASE HIVE PIG ZOOKEEPER

ÒHadoopCommon:在0.20及之前的版本中，包括HDFS、MapReduce和其他项目公共内容，从0.21开始HDFS和MapReduce被分离为独立的子项目，其余内容为HadoopCommon

ÒHDFS:Hadoop散布式文件系统(DistributedFile System) －HDFS (HadoopDistributed File System)

ÒMapReduce：并行计算框架，0.20前使用org.apache.hadoop.mapred旧接口，0.20版本开始引入org.apache.hadoop.mapreduce的新API

ÒHBase:类似GoogleBigTable的散布式NoSQL列数据库。（HBase和Avro已于2010年5月成为顶级Apache项目）

ÒHive：数据仓库工具，由Facebook贡献。

ÒZookeeper：散布式锁设施，提供类似GoogleChubby的功能，由Facebook贡献。

ÒAvro：新的数据序列化格式与传输工具，将逐渐取代Hadoop原本的IPC机制。

ÒPig:大数据分析平台，为用户提供多种接口。

ÒAmbari[6]：Hadoop管理工具，可以快捷的监控、部署、管理集群。

ÒSqoop：在HADOOP与传统的数据库间进行数据的传递。

Ò大数据开源框架之2Berkeley DataAnalytics Stack(tachyon, spark, shark，spark streaming)

ÒIBM大数据平台产品

Ò3种分析引擎：

É流计算

ÉHadoop系统

É数据仓库

Ò可扩大，支持第3方分析数据存储

ÒIBM大数据平台

ÒTranswarpDH星环科技产品

Ò星环科技产品（续）

ÒTranswarpDH星环科技产品（续）

Ò大数据的研究方向

Ò大数据研究

Ò参考3：Data Mining with Big Data，XindongWu, Fellow, IEEE, XingquanZhu, Senior Member,IEEE,Gong-QingWu, and Wei Ding, Senior Member, IEEEIEEE TRANSACTIONS ON KNOWLEDGE AND DATAENGINEERING, VOL. 26, NO. 1, JANUARY 2014

ÒHACE Theorem:Big Data starts with large-volume,

heterogeneous,autonomoussourceswith distributed and

decentralized control, and seeks to explorecomplexand

evolvingrelationships among data.

ÒDataMining with Big Data，XindongWu,etal.

ÒDataMining with Big Data，XindongWu,etal. 技术方案

ÒTierI : Big Data Mining Platform

Ò parallelcomputing ----J.Shafer, R.Agrawal,and M. Mehta, “SPRINT: A Scalable Parallel Classifier for Data Mining,” Proc.22nd VLDB Conf., 1996.[参考4]

ÒD.Luo,C. Ding, and H. Huang, “Parallelization with Multiplicative

ÒAlgorithmsfor Big Data Mining,” Proc. IEEE 12th Int’l

ÒConf.Data Mining, pp. 489⑷98, 2012.[参考5]

collective mining----R.Chen, K.Sivakumar,and H.Kargupta,“Collective Mining of Bayesian Networks from Distributed Heterogeneous Data”,Knowledge and Information Systems, vol. 6, no. 2, pp. 164⑴87, 2004 [参考6]

ÒDataMining with Big Data，XindongWu,etal. 技术方案(续)

ÒTierII : Big Data Semantics and Application Knowledge

ÒInformationsharing and data privacy----

É1)restrict access to the data

É2) anonymizedata fields----Y. Lindelland B.Pinkas,“Privacy Preserving DataMining,”J.Cryptology, vol. 15, no. 3, pp. 177⑵06, 2002.[参考7]

ÒDomainand Application Knowledge

I. Kopanas,N.Avouris,and S.Daskalaki,“The Role of Domain

Knowledgein a Large Scale Data Mining Project,” Proc. Second

HellenicConf. AI: Methods and Applications of Artificial Intelligence,

I.P.Vlahavas,C.D.Spyropoulos,eds., pp. 288⑵99, 2002.

ÒDataMining with Big Data，XindongWu,etal. 技术方案(续)

ÒTierIII : Big Data Mining Algorithms

ÒLocallearning and model fusion for multiple information sources----theglobal mining can be featured with a two-step (localminingand globalcorrelation) process, at data, model, and atknowledge levels.

ÒMiningfrom sparse,uncertain,andincomplete data

ÒMingcomplex and dynamic data: the value of Big Data is in its complexity

ÉComplexheterogeneous data types.

ÉComplexintrinsic semantic associations in data.

ÉComplexrelationship networks in data.

ÒDataMining with Big Data，XindongWu,etal. 研究进展

ÒMapReduceparallel programming being applied to many machine learning and data miningalgorithms.

ÒChu et al.To improve the efficiency of algorithms, Chu et al. proposedageneral-purpose parallel programming method,which is applicable to a large number of machine learningalgorithmsbasedon the simpleMapReduceprogramming model onmulticoreprocessors. Ten classical data mining algorithms are realized in the framework.

ÒRanger et al.proposedaMapReduce-basedapplication programming interfacePhoenix,which supports parallel programming in the environment ofmulticoreand multiprocessor systems, and realized three data mining algorithms includingk-Means, principal component analysis, and linear regression.

ÒDataMining with Big Data，XindongWu,etal. 研究进展

ÒPapadimitriouand Sunproposed a distributed collaborativeaggregation (DisCo)frameworkusing practical distributed datapreprocessing and collaborative aggregation techniques.

ÒDaset al. conducted a study ofthe integration of R (open sourcestatistical analysis software) andHadoop. Thein-depth integration pushes data computation to parallel processing, whichenables powerful deep analysis capabilities forHadoop.

ÒWegeneret al. achievedthe integration of Weka(an open-source machine learning and data mining software tool) andMapReduce.StandardWekatools can only run on a single machine, with a limitation of 1-GB memory. Afteralgorithm parallelization,Wekabreaks through the limitations and improves performance by taking the advantageof parallel computing to handle more than 100-GB data onMapReduceclusters.

ÒGhoting et al. proposed Hadoop-ML,onwhich developers can easily build task-parallel or data-parallel machinelearning and data mining algorithms on program blocks under the languageruntime environment.

ÒDataMining with Big Data，XindongWu,etal. 研究进展

ÒOnconfidentiality protection in Big Data, Efficient and effective data accessmechanism

ÒWanget al. a privacy-preserving publicauditing mechanismfor large scale data storage (such ascloud computing systems) has been proposed. The public key-based mechanism isused to enable third-party auditing (TPA), so users can safely allow a thirdparty to analyze their data without breaching the security settings orcompromising the data privacy.

ÒOnexcluding the third party(such as data miners) , privacy-preserving approachesor encryption mechanisms

ÒLorch et al. In their system, namely Shround,users’ data access patternsfromthe servers are hidden by using virtual disks.

ÒDataMining with Big Data，XindongWu,etal. 研究进展

Òexpandedexisting data mining methods in many ways (multisource,massive,dynamicBig Data)

Étheefficiency improvement of single-source knowledge discovery methods ,

ÉDesigninga data mining mechanism from a multisource perspective,

Édynamicdata mining methods ,

Éanalysisof stream data ,

ÉWu et al.proposed and establishedthetheory of local pattern analysis,which has laid a foundation for global knowledge discovery in multisource datamining.

Ò机器学习与小娃娃学习

ÒReferences

Ò参考1：《机器学习与数据发掘》周志华，南京大学计算机软件新技术国家重点实验室

Ò参考2：T.G.Dietterich.Machine learning research: Four current directions.AI Magazine, 1997, 18(4): 97⑴36.

Ò参考4:Agrawal,and M. Mehta, “SPRINT: A Scalable Parallel Classifier for Data Mining,” Proc.22nd VLDB Conf., 1996.

Ò参考5: D.Luo,C. Ding, and H. Huang, “Parallelization with Multiplicative Algorithms for BigData Mining,” Proc. IEEE 12th Int’l Conf. Data Mining, pp. 489⑷98, 2012

Ò参考6: R. Chen, K.Sivakumar,and H.Kargupta,“Collective Mining of Bayesian Networks from Distributed Heterogeneous Data”,Knowledge and Information Systems, vol. 6, no. 2, pp. 164⑴87, 2004

Ò参考7:Y.Lindelland B.Pinkas,“Privacy Preserving DataMining,”J.Cryptology, vol. 15, no. 3, pp. 177⑵06, 2002.

谢谢大家！

------分隔线----------------------------

上一篇 u-boot中环境变量操作和hash表

下一篇 35 个有关 Python 的小技巧

------分隔线----------------------------