2014年4月3日星期四,CSDN在线培训“大数据环境下的关联规则挖掘”将和大家见面了!
随着物联网和云计算这两大国家战略性新兴产业的不断发展,如何处理海量的信息以服务于社会的需求变得更为紧迫,数据挖掘技术成为推动两大新兴产业发展的核心技术。对于一些企业,数据挖掘更是可以带来更大的价值。
而关联规则挖掘(Association rule mining)是数据挖掘中最活跃的研究方法之一,可以用来发现数据之间的联系,关联规则挖掘过程主要包含两个阶段:
关联规则挖掘的第一阶段必须从原始资料集合中找出所有高频项目组(Large Itemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。一个项目组出现的频率称为支持度(Support),以一个包含A与B两个项目的2-itemset为例,我们可以经由公式求得包含{A,B}项目组的支持度,若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时,则{A,B}称为高频项目组。一个满足最小支持度的k-itemset,则称为高频k-项目组(Frequent k-itemset),一般表示为Large k或Frequent k。算法并从Large k的项目组中再产生Large k+1,直到无法再找到更长的高频项目组为止。
关联规则挖掘的第二阶段是要产生关联规则(Association Rules)。从高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在最小信赖度(Minimum Confidence)的条件门槛下,若一规则所求得的信赖度满足最小信赖度,称此规则为关联规则。例如:经由高频k-项目组{A,B}所产生的规则AB,其信赖度可经由公式求得,若信赖度大于等于最小信赖度,则称AB为关联规则。
而关联规则挖掘的相关算法一般有以下几种:
FP-树频集算法:FP-树频集算法。采用分而治之的策略,在经过第一遍扫描之后,把数据库中的频集压缩进一棵频繁模式树(FP-tree),同时依然保留其中的关联信息,随后再将FP-tree分化成一些条件库,每个库和一个长度为1的频集相关,然后再对这些条件库分别进行挖掘。
Apriori算法:Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。
基于划分的算法:Savasere等设计了一个基于划分的算法。这个算法先把数据库从逻辑上分成几个互不相交的块,每次单独考虑一个分块并对它生成所有的频集,然后把产生的频集合并,用来生成所有可能的频集,最后计算这些项集的支持度。
“数据海量,信息缺乏”是所有企业在数据大集中之后普遍所面对的尴尬。企业实施的大多数数据库只能实现数据的录入、查询、统计等较低层次的功能,却无法发现数据中存在的各种有用的信息,譬如对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的兴趣。同时在我国这方面的人才也十分稀缺。
赵修湘,EasyHadoop 开源社区创始人之一,毕业于中国科学院研究生院,曾就职于多家互联网公司担任数据基础平台架构师和数据挖掘工程师, 目前担任某互联网数据公司高级数据挖掘工程师,一直致力于大数据行业相关技术的研究。此次CSDN在线培训:大数据环境下的关联规则挖掘中,赵修湘会介绍大数据环境下关联规则挖掘面临的挑战;以及在项目实战中用到的两种有效的解决方案:暴力法、mr Apriori。
本次在线培训采用三分屏模式,在听课的同时可以和讲师进行互动,让你感受真实的课堂环境。还在为Hadoop“手艺”无处可学而烦恼?还在为Hadoop企业级应用而头疼?快来看看吧!
报名地址:http://g.csdn.net/5267277