程序员人生网站导航

网络蜘蛛开发之数据存放与性能的问题

栏目：综合技术时间：2014-06-19 04:12:05

问题：

我想利用利用Lucene.net做个网路蜘蛛。主要想利用Lucene.net创建索引，数据采集的工作自己开发完成。现在有些问题请教大家：

蜘蛛采集的数据存放在数据库中还是存放在哪里，我打算放在数据库中，哪个性能上好些呢？

蜘蛛为什么要下载网页呢？我看每个蜘蛛都有下载文件的功能，但是不清楚为何一定要下载网页呢？边解析html边往数据库中存不行吗？

希望高手赐教。谢谢

问题补充：Lucene.net是没有数据采集的功能，但是蜘蛛只是下载网页吗？创建索引不是蜘蛛干的吗？（这个我不清楚）
那我可不可以请求一个URL后直接就分析html--然后创建索引--必要的信息存放数据库（或略）。这样不就没有下载网页的必要了吗？是不是性能上的问题？
请简单说下蜘蛛工作流程和所需要的功能，谢谢。我加分

回答：

存入数据库就可以了，一般的蜘蛛没有太大必要实现自己的存储方案，但注意最好不要使用轻量级的数据库产品，吞吐量比较差。

下载网页是必须下的，不下下来怎么分析内容嘛。你的意应该是指下载后的网页数据没必要保存起来吧？是这样的，可以直接对网页代码进行分析，然后将分析后的数据储存起来就行了，没有需要的话就不用保存网页。

通常蜘蛛需要拥有的功能：

漫游：在各个网页间爬行，需保证如无特殊需求时不要重复爬一个页、不要绕在死胡同里出不来。

下载数据：下载爬到的网页源代码，如有需要的话，还可以下载其附属的资源文件，如图片等。

分析与存档：这个功能可以做成委托或事件，由调用者来配置具体的分析方式，并决定如何处理源数据与分析后的数据，这样可以保证蜘蛛的通用性。
另外蜘蛛一般都是多线程并行处理的，所以可能还需要一个线程调度程序，用以给每个线程委派任务，并避免冲突；也可以让每个线程彼此独立地自己维护自己的任务，比如将每个线程限定在不同的域名中，让它们只爬自己辖区内的网页，就不会有冲突问题。

------分隔线----------------------------

上一篇 解决SQL Server不允许进行远程连接

下一篇 企业利用微博客网络营销和推广的技巧和方法

------分隔线----------------------------