程序员人生 网站导航

搜索引擎抓取网页的三个优先策略

栏目:网络优化时间:2014-01-07 14:29:16

  网页抓取优先策略也称为“页面选择问题”,通常是尽可能地首先抓取重要的网页,这样保证在有限的资源内尽可能地照顾到那些重要性高的网页。重要性度量由链接欢迎度、链接重要度和平均链接深度三方面决定。

  1.链接欢迎度

  链接欢迎度主要由反向链接(Backlinks)的数目和质量决定。对于数目,一个网页有越多的链接指向它(反向链接数多),那么表示其他网页对其的认可度就越高,同时这个网页被访问的机会就大。这样推测出网页的重要性也就越高。对于质量,这个网页如果被很多重要性高的网页所指向,那么其重要性也就越高。如果不考虑质量,就会出现局部最优,而不是全局最优的问题。最典型的就是作弊网页,人为地在一些网页中设置了大量反向链接指向其自身的网页,以提高该网页的重要性。如果不考虑链接质量,就会被这些作弊者所利用。

  2.链接重要度

  链接重要度:是一个关于URL字符串的函数,考查的是字符串本身。链接重要度主要通过一些模式来确认,如认为包含.com或者home的URL重要度高,以及具有较少斜杠的URL重要度高等。

  3.平均链接深度

  平均链接深度为,表示在一个种子站点集合中,每个种子站点如果存在一条链路(广度优先遍历规则)到达该网页,那么平均链接深度就是一个重要性指标。因为距离种子站点越近,说明被访问的机会越多,因此重要性越高。可以认为种子站点是那些重要性最高的网页,离种子站点越远,重要性越低。事实上,按照广度优先的遍历规则即可满足这种重要性高的网页被优先抓取的需要。

------分隔线----------------------------
------分隔线----------------------------

最新技术推荐