程序员人生网站导航

2015年“深圳杯”数学建模夏令营-B题：DNA序列的k-mer index 问题

栏目：综合技术时间：2015-07-01 08:40:30

感受总结：这是第1次参加数学建模，貌似往年建模都是给大2大3做的，但几年我们大1的热忱都很高，我也糊里胡涂地被数学学院的拉去组队了，说来组队也坑，不想多说，由于最后选了这个算法题，队友连C语言都没学，所以全部比赛从算法到论文全是我1人完成，整了4天加1个通宵，累得不行，最后弄出来的还是很烂。不过学到了经验是真的，并且也让我对哈希算法懂了1点，毕竟啥也没干这4天1直就围绕哈希在研究。

经验：1、组队我认为应当2个计算机专业、1个数学专业的就能够了。

2、页数1定要多，最少20页吧，而且内容逼格1定要高。

3、在开始之前要多搜集相干资料，确保最初方向的准确性。

知识方面：1、主要是对哈希算法有了深入了解，知道了其索引原理并在这次比赛进行了简单利用。

2、哈希在很多方面都有利用，比如破解密码等，可以大大提高效力，这也是我们常说的字典技术。

还有好多就不说了，把我猥琐的建模处女座献出。

题目：

2015年“深圳杯”数学建模夏令营

B题：DNA序列的k-mer index 问题

这个问题来自 DNA序列的k-mer index问题。

给定1个DNA序列，这个系列只含有4个字母ATCG，如 S =“CTGTACTGTAT”。给定1个整数值k，从S的第1个位置开始，取1连续k个字母的短串，称之为k-mer（如k= 5，则此短串为CTGTA），然后从S的第2个位置，取另外一k-mer（如k= 5，则此短串为TGTAC），这样直至S的末端，就得1个集合，包括全部k-mer。如对序列S来讲，所有5-mer为

｛CTGTA，TGTAC，GTACT，TACTG，ACTGT，TGTAT｝

通常这些k-mer需1种数据索引方法，可被后面的操作快速访问。例如，对5-mer来讲，当查询CTGTA，通过这类数据索引方法，可返回其在DNA序列S中的位置为｛1，6｝。

问题

现在以文件情势给定 100万个 DNA序列，序列编号为1⑴000000，每一个基因序列长度为100 。

（1）要求对给定k，给出并实现1种数据索引方法，可返回任意1个k-mer所在的DNA序列编号和相应序列中出现的位置。每次建立索引，只需支持1个k值便可，不需要支持全部k值。

（2）要求索引1旦建立，查询速度尽可能快，所用内存尽可能小。

（3）给出建立索引所用的计算复杂度，和空间复杂度分析。

（4）给出使用索引查询的计算复杂度，和空间复杂度分析。

（5）假定内存限制为8G，分析所设计索引方法所能支持的最大k值和相应数据查询效力。

（6）按重要性由高到低排列，将根据以下几点，来评价索引方法性能

・索引查询速度

・索引内存使用

・ 8G内存下，所能支持的k值范围

・建立索引时间

论文及附件下载地址：http://pan.baidu.com/s/1i37YHcL

------分隔线----------------------------

上一篇 PHP裁剪图片插件记录

下一篇 第六届蓝桥杯java试题-三角形面积

------分隔线----------------------------