程序员人生网站导航

领先Google 150年的数据可视化和“不务正业”的超级计算机

栏目：互联网时间：2014-09-23 10:26:44

说起谷歌分析流感疫情，大家一定会联想到大型数据库、复杂的数据模型等等，你很难相信维多利亚时代的科学家们也能通过数据分析赶走霍乱，他们用一张张图表把大量数据变得简洁、直观，使复杂的医学问题得以解决；基因科学告诉我们：我们自身就是一个庞大的“数据库”，通过超级计算机完成基因测序，也能解决医学难题；还有越来越流行的医学专家系统等等。这一切似乎告诉我们：医生们要小心了，数据科学家也能抢走你的饭碗。

霍乱在维多利亚时代的英国是一个隐形杀手，一次又一次摧残着社会的底层大众。很难从单个患者身上弄明白人们是如何感染上这种疾病的，科学家们把目光转移到死亡率的统计上。通过绘制大量的图表和“地图”，他们发现霍乱通过被污染的水传播，也就是说清理城市管道系统可以有效地解决霍乱问题。

虽然对于这种疾病的认识早在19世纪50年代就取得了显著进展，但当时的数据可视化即使放在现在也还是很吸引眼球。有一些可以在伦敦图书馆的展览――Beautiful Science中看到，他们和现代医药科学、基因科学、气象学等不同领域的可视化技术一起展出。

技术的进步将这些可视化明显区分开了，其中许多交互式可视化以及基于存储的可视化是维多利亚时代科学家所难以想象的。然而那些旧图表和旧“地图”――尤其是William Farr和John Snow的那些――和云计算时代仍然有着紧密的联系，因为他们研究的领域更加精确。虽然Google Flu Trends规模庞大而且动态变化，我们仍然能够用Farr和Snow的方法实现，他们的经验可以帮助我们了解如何实现和应用数据可视化。

伦敦气温和死亡率相关图――William Farr在一份报告中统计了1848年-1849年英国霍乱的死亡率

Farr和Snow对霍乱有着完全不同的两套理论，而且证明的方法也完全不一样。Farr是一个沉迷于数据的统计学家，其大量的图表文档表明了霍乱和海拔有联系（他认为是瘴气的原因）。Snow是一名医生，他把注意力放在病人身上，其观察显示霍乱从胃部进入人体，这让他相信是摄取食物或水的问题，最后他把问题指向了公共水源。他做了一张“地图”，清楚地标出了公寓附近的水源和死亡率。很显然，他想得到相应的数据。他是对的，但是还需要证明。

另一方面，Farr把霍乱归因于瘴气和海拔是错误的，他错误地理解数据。然而他的图表并不会因为他的错误判断而被低估。恰恰相反，可靠地统计死亡率及一切可以测量的属性，这些对可视化的探索和发现还是值得肯定的（他自己后来也接受了Snow的理论）。

Snow的“地图”其实是信息图――一种基于特定信息对具体问题作出科学解释的有力工具。Farr的多维图表则不用局限于具体的某个问题，它们可应用的范围更加广泛。

其实，不仅在大范围流行病的处理上用到了数据分析。科学家们发现很多疾病已经不再仅仅是医学问题，在基因测序问题上困扰科学家的也是“大数据”。

医学界已越来越多的转向利用遗传信息来了解、治疗和预防人类疾病；然而仅分析单个基因组信息就要花去好几个月的时间。现在，研究人员用世界上最快的超级计算机能在2天内得到240个完整基因组的全部信息。

来自芝加哥大学的研究人员们已在《生物信息学》期刊公布了分析结果。

“小猎犬号”是Cray XE6超级计算机――它能够在短短2天内分析240个完整基因组

这台超级计算机被命名为“小猎犬号”（很容易让人联想到达尔文在1831年那次著名的科学之旅），安置在伊利诺伊州Argonne国家实验室的理论与计算科学大厦，“小猎犬号”可应用于生物医学研究领域的计算、仿真和数据分析。

该团队指出，生产DNA序列成本的降低使整个基因组测序进度加快。但由于一次分析好几个基因组需要很大的计算量，这又带来了“计算瓶颈”的问题。而有了超级计算机以后不用再局限于一次只能观察一个基因组，它可以同时处理多个基因组。

这项研究的第一作者Megan Puckelwartz表示，“超级计算机主要被当作一种研究工具，用于完成全部基因组测序工作，一些研究成果可以即刻应用于临床”。

医学与人类遗传学教授兼芝加哥大学心血管遗传学临床部门负责人Elizabeth McNally博士说：

这可以给病人带来好处，而且随着时间的推移，我们将更深入的了解基因引起疾病的原因。

为什么全基因组测序如此有用？

该小组称由于基因组数量如此庞大，临床遗传学家都选择了exome（外显子组）测序，其中包括重点关注的基因组，这部分基因组少于2%，但将决定蛋白质的生成。

在这些基因组中85%的突变会导致疾病，其余15%的突变来自非编码区。过去称之为“垃圾DNA”，这些来自非编码区基因突变现在也被证实会对人体产生影响。但分析这些基因组，需要对整个基因组测序。

为了测试“小猎犬号”，McNally博士和他的同事使用了61个人的基因测序数据并在超级计算机上分析。

只用了“小猎犬号”总计算能力的四分之一，该团队就发现不仅测序的精度提高了，速度也大大加快了。

McNally博士说，这些改进降低了检测基因组的成本，分析整个基因组成本甚至要比过去观察一个基因组的片段还要低。此外，小组称这种分析方法将又快又便宜，解决了困扰科学家们的瓶颈问题。

成果可“即刻应用于临床”

McNally博士说，他们的研究结果立即可以应用到心血管遗传学临床，他们通过观察病人和他们的家庭成员的基因来了解、治疗或预防疾病。

她说：“我们已经开始检测病人的基因，但当我们发现一个明显的突变基因时，我们会考虑检测整个家庭的基因，发现潜在的危险。”

McNally博士又补充说明：

在2007年，我们第一次检测5个基因组，现在我们一次检测50到70基因组，通常我们也就可以找到答案了。此时，它能以更低廉的成本有效检测整个基因组。

她说通过研究病人的这些基因组和家族史，他们可以获得关于遗传疾病更多的信息。

她补充说：“密切关注有基因问题患者家属，也许暂时尚未显示出疾病的症状，这样我们可以调查基因疾病的早期阶段。在处理基因问题时，每个病人都是大数据问题。”