科学研究与大数据概念的滥用
Esri 中国 卢萌
突如一夜春风来,千树万树梨花开。2012年兴起的“大数据”潮流,让“data”这个IT圈子里面的名词一下风靡各个行业。可以说,没有任何一个IT界的术语能够受到如此之大的关注和使用。除了传统IT界以及和IT圈子相关的行业以外,各种如餐饮业、房地产业、金融业等都迫不及待的宣布了自己的”大数据“战略。
微软研究院的《第四范式:数据密集型的科学研究》,将人类的科学研究从实验型科学研究、理论型科学研究和模拟计算型科学研究三个范式的定义之后,推出了第四个范式,即数据密集型的科学研究。
所以,大数据的风潮不可避免的刮进了科学研究领域。
就在这种全民热炒的时代,还是有一群科技工作者保持着冷静的。大数据这个名词虽然是科学研究界最早提出来的,但是真正被推广和使用的,都是在互联网领域,特别是对于大数据的公认的那些个V不管是最早的3V还是4V,到现在的11V,无一不是与互联网所产生的数据洪流的特性相匹配的,科学研究界真的需要这些吗?
首先,大数据从概念上讲究数据的“快”,这里的快可以是产生快、传播快、变化快、处理速度快等。但是在科学研究领域,很多数据的并没有这么多快的概念。比如在地理信息相关的很多领域,如土地利用、土壤变化、行政区划等信息中,多年不变,或者变化很少是很常见的现象。
其次,关于维度的问题。大数据有一种思想,就是去收集更多的数据,不管这个数据是否目前能够用得上,是否是我们目前所关注的信息,只要有可能,就去收集,不怕全不怕多,就怕没有(很多时候,很多公司和研究者,都进入一种为了数据而数据的走火入魔的状态)。特别是NoSQL这种数据思想的流行,让很多研究者高呼“妈妈再也不用担心我的数据存储范式了……”。但是,我们知道在科学领域,首先要定义的就是你的科学研究目标,目标必须要界定清晰,那么你的数据结构一开始就要设计得符合你的研究目标,这样才能有目的性的开展工作,如果不预先进行详细界定和设计,在研究的过程中就会导致目标的弱化以至于迷失。
还有关于数据价值的问题。互联网的数据可用“得来全不费工夫”来形容,特别是我们常用来举例的推特、谷歌、脸书这样的互联网行业。但是科学研究的每一份数据都得来不易,无论是从实验中获取,还是实地考察采样,每一份数据后面都可能有极其高昂的人力和时间成本。
获取更多的数据,是一个理想的状态,但是如果每一份数据都有很大的成本,要想在科学研究领域达到互联网领域那种数据量,是一个几乎无法完成的任务。
当然,《大数据时代》的思想来看,大数据的大并不是单纯的数量庞大的概念,还包含有完整性分析的概念。
在科研领域,获取完全的数据,进行分析也是一个理想状态。就从地理信息领域来看,采样点以点方式存在,根据地理信息要素的概念,点要素只有(X,Y)的性质,只表示位置,不能表示大小,所以不管怎么进行采集,也无法铺满整个研究区域。所以各种以样本来估算整体的算法,在地理信息领域才如此重要,包括空间抽样、地统计分析等。
大数据是一种思想,但是在使用的过程中不能犯教条主义,不是数据量才加大数据,也不是符合各种V才叫大数据,我们需要在真正理解的情况下,去应用。正如小平同志说的:黑猫白猫,抓住老鼠,才是好猫!