程序员人生网站导航

科学研究与大数据概念的滥用

栏目：互联网时间：2014-10-08 10:08:00

科学研究与大数据概念的滥用

Esri 中国卢萌

突如一夜春风来,千树万树梨花开。2012年兴起的“大数据”潮流，让“data”这个IT圈子里面的名词一下风靡各个行业。可以说，没有任何一个IT界的术语能够受到如此之大的关注和使用。除了传统IT界以及和IT圈子相关的行业以外，各种如餐饮业、房地产业、金融业等都迫不及待的宣布了自己的”大数据“战略。

微软研究院的《第四范式：数据密集型的科学研究》，将人类的科学研究从实验型科学研究、理论型科学研究和模拟计算型科学研究三个范式的定义之后，推出了第四个范式，即数据密集型的科学研究。

所以，大数据的风潮不可避免的刮进了科学研究领域。

就在这种全民热炒的时代，还是有一群科技工作者保持着冷静的。大数据这个名词虽然是科学研究界最早提出来的，但是真正被推广和使用的，都是在互联网领域，特别是对于大数据的公认的那些个V不管是最早的3V还是4V，到现在的11V，无一不是与互联网所产生的数据洪流的特性相匹配的，科学研究界真的需要这些吗？

首先，大数据从概念上讲究数据的“快”，这里的快可以是产生快、传播快、变化快、处理速度快等。但是在科学研究领域，很多数据的并没有这么多快的概念。比如在地理信息相关的很多领域，如土地利用、土壤变化、行政区划等信息中，多年不变，或者变化很少是很常见的现象。

其次，关于维度的问题。大数据有一种思想，就是去收集更多的数据，不管这个数据是否目前能够用得上，是否是我们目前所关注的信息，只要有可能，就去收集，不怕全不怕多，就怕没有（很多时候，很多公司和研究者，都进入一种为了数据而数据的走火入魔的状态）。特别是NoSQL这种数据思想的流行，让很多研究者高呼“妈妈再也不用担心我的数据存储范式了……”。但是，我们知道在科学领域，首先要定义的就是你的科学研究目标，目标必须要界定清晰，那么你的数据结构一开始就要设计得符合你的研究目标，这样才能有目的性的开展工作，如果不预先进行详细界定和设计，在研究的过程中就会导致目标的弱化以至于迷失。

还有关于数据价值的问题。互联网的数据可用“得来全不费工夫”来形容，特别是我们常用来举例的推特、谷歌、脸书这样的互联网行业。但是科学研究的每一份数据都得来不易，无论是从实验中获取，还是实地考察采样，每一份数据后面都可能有极其高昂的人力和时间成本。

获取更多的数据，是一个理想的状态，但是如果每一份数据都有很大的成本，要想在科学研究领域达到互联网领域那种数据量，是一个几乎无法完成的任务。

当然，《大数据时代》的思想来看，大数据的大并不是单纯的数量庞大的概念，还包含有完整性分析的概念。

在科研领域，获取完全的数据，进行分析也是一个理想状态。就从地理信息领域来看，采样点以点方式存在，根据地理信息要素的概念，点要素只有（X,Y）的性质，只表示位置，不能表示大小，所以不管怎么进行采集，也无法铺满整个研究区域。所以各种以样本来估算整体的算法，在地理信息领域才如此重要，包括空间抽样、地统计分析等。

大数据是一种思想，但是在使用的过程中不能犯教条主义，不是数据量才加大数据，也不是符合各种V才叫大数据，我们需要在真正理解的情况下，去应用。正如小平同志说的：黑猫白猫，抓住老鼠，才是好猫！

------分隔线----------------------------

上一篇 hdu 4417 Super Mario(离线树状数组|划分树)

下一篇 proc中插入VARCHAR2字段报ORA-01461: can bind a LONG value only for insert into a LONG c

------分隔线----------------------------