程序员人生 网站导航

程序员怎能不知道什么是数据挖掘

栏目:数据库应用时间:2014-12-17 08:37:13

视乎已听到或看到无数遍数据发掘了,那末,你知道那是甚么吗?关于甚么是数据发掘,很多学者和专家给出了不同的定义,以下我们列出几种常见的说法:
“简单地说,数据发掘是从大量数据中提取或‘发掘’知识。该术语实际上有点用词不当。数据发掘应当更正确地命名为‘从数据中发掘知识’,不幸的是它有点长。许多人把数据发掘视为另外一个经常使用的术语‘数据库中知识发现’或KDD的同义词。而另外一些人只是把数据发掘视为数据库中知识发现进程的1个基本步骤。” ――《数据发掘:概念与技术》(FreeEIM J. Han and M. Kamber)
“数据发掘就是对观测到的数据集(常常是很庞大的)进行分析,目的是发现未知的关系和以数据具有者可以理解并对其有价值的新颖方式来总结数据。”――《数据发掘原理》(David Hand, et al)
“应用基于计算机的方法,包括新技术,从而在数据中取得有用知识的全部进程,就叫做数据发掘。”――《数据发掘--概念、模型、方法和算法》(Mehmed Kantardzic openeim)
“数据发掘,简单地说,就是从1个数据库中自动地发现相干模式。”――《构建面向CRM的数据发掘利用》(Alex Berson, et al)
“数据发掘(DM)是从大型数据库中将隐藏的预测信息抽取出来的进程。”――《数据发掘:机遇与挑战》(John Wang)
而作为数据发掘领域的华人第1人,韩家炜教授在《数据发掘:概念与技术》的教学幻灯片中,给出1个更清晰的定义:“数据发掘,就是从大型数据库中抽取成心义的(非平凡的,隐含的,之前未知的并且是有潜伏价值的)信息或模式的进程。”
这里我们可以看到数据发掘具有以下几个特点:
l         基于大量数据:并不是说小数据量上就不可以进行发掘,实际上大多数数据发掘的算法都可以在小数据量上运行并得到结果。但是,1方面太小的数据量完全可以通过人工分析来总结规律,另外一方面来讲,小数据量常常没法反应出真实世界中的普遍特性。
l         非平凡性:所谓非平凡,指的是发掘出来的知识应当是不简单的,绝不能是类似某著名体育评论员所说的“经过我的计算,我发现了1个有趣的现象,到本场比赛结束为止,这届世界杯的进球数和失球数是1样的。非常的偶合!”那种知识。这点看起来勿庸赘言,但是很多不懂业务知识的数据发掘新手却常常犯这类毛病。
l         隐含性:数据发掘是要发现深藏在数据内部的知识,而不是那些直接显现在数据表面的信息。经常使用的BI工具,例如报表和OLAP,完全可让用户找出这些信息。
l         新奇性:发掘出来的知识应当是之前未知的,否则只不过是验证了业务专家的经验而已。只有全新的知识,才可以帮助企业取得进1步的洞察力。
l         价值性:发掘的结果必须能给企业带来直接的或间接的效益。有人说数据发掘只是“屠龙之技”,看起来神乎其神,却甚么用途也没有。这只是1种误解,不可否认的是在1些数据发掘项目中,或由于缺少明确的业务目标,或由于数据质量的不足,或由于人们对改变业务流程的抵制,或由于发掘人员的经验不足,都会致使效果不佳乃至完全没有效果。但大量的成功案例也在证明,数据发掘的确可以变成提升效益的利器。
“数据发掘”这个术语是在甚么时候被大家普遍接受的,已难以考证,大约在上世纪90年代开始兴起。其中还有1段趣话。在科研界,最初1直沿用“数据库中的知识发现”(即KDD,Knowledge Discovery in Database 5z20)。在第1届KDD国际会议中,委员会曾展开讨论,是继续沿用KDD,还是改名为Data Mining(数据发掘)?最后大家决定投票表决,采用票数多的1方的选择。投票结果很有戏剧性,1共14名委员,其中7位投票同意KDD,另7位同意Data Mining。最后1位元老提出“数据发掘这个术语过于含糊,做科研应当要有知识”,因而在科研界便继续沿用KDD这个术语。而在商用领域,由于“数据库中的知识发现”显得过于冗杂,就普遍采取了更加通俗简单的术语――“数据发掘”。
严格地说,数据发掘其实不是1个全新的领域,它很有点“新瓶装旧酒”的意味。组成数据发掘的3大支柱包括统计学、机器学习和数据库等领域内的研究成果,其它还包括了可视化、信息科学等内容。数据发掘纳入了统计学中的回归分析、辨别分析、聚类分析和置信区间等技术,机器学习中的决策树、神经网络等技术,数据库中的关联分析、序列分析等技术。

原文:程序员怎能不知道甚么是数据发掘


------分隔线----------------------------
------分隔线----------------------------

最新技术推荐