程序员人生 网站导航

通过WEB日志文件 分析搜索蜘蛛爬行记录

栏目:网络优化时间:2014-02-25 10:34:57

  一、网站日志文件在哪里?

  【简单说下网站虚拟主机FTP几个文件夹说明】

  虚拟主机开通成功之后,会在您的FTP里面自动生成4个文件夹,分别是:"databases","logofiles","others","wwwroot",他们作用如下:

  1、wwwroot文件夹:该文件夹内存放可以通过web访问的文件,您需要将您对外发布的网站文件上传到该目录下,输入域名访问到的文件将是该文件夹下的文件。

  2、databases文件夹:该文件夹同logofiles、others文件夹一样,属于不可通过web访问的文件夹,即用户无法通过输入网址来访问这些文件夹下的文件,您可以在这些文件夹下上传一些不希望别人能够访问的文件。比如您可以将access数据库存放在databases文件夹下,这样可以最大化的保证您的数据库安全。

  3、logofiles文件夹:logofiles文件夹是日志文件,该文件夹存放您的网站日志文件。通过日志文件您可以查询到网站的一些访问记录。(由于各个空间商的不同,本文件夹的命名也有少许差别有都命为:logofiles或者WEBLOG反正一般都会带上LOG这一个字母)

  4、others文件夹:该站点存放您自定义的IIS错误文件。IIS默认的一些错误提示,比如404错误,403错误,500错误等等,如果您觉得这些错误提示不够个性化,您可以将您自定义的错误提示上传到该目录下。

  二、怎样分析网站日志文件 分析举例说明

  下面已IBM笔记本电脑论坛http://www.ebenben.com最近8月份的日志文件为例说明一下,空间日志代码如下:

  2009-08-23 16:06:03 W3SVC176 58.61.160.170 GET /nb/html/30/t-12730.html - 80 - 220.181.7.24 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 0 20006

  1、首先以百度为例,分析说明:

  访问时间:2009-08-23 16:06:03

  百度蜘蛛的IP:58.61.160.170

  蜘蛛爬这的网址: /nb/html/30/t-12730.html

  合来起所表达的意思很明显:IP为58.61.160.170的百度蜘蛛在2009-08-23 16:06:03点43分对此网站上的/nb/html/30/t-12730.html 网页进行收录或更新了。

  【补充说明】

  2009-08-23 16:06:03是百度蜘蛛来访的日期及时间;

  158.61.160.170 是百度蜘蛛的IP

  “GET 是服务器的动作,不是GET就是POSP;GET是从服务器上获取内容;/nb/html/30/t-12730.html 使用HTML1.1协议获取相关内容200 是返回状态码,200是成功获取;404是文件没找到;401是需要密码,403禁止查看,500服务器错误。很明显此例子中最后返回是200,为成功获取!

  “+(+http://www.baidu.com/search/spider.htm)″表示来路

  当然,还有部分空间日志会有这样一些代码,他们表示意思如下:

  “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Alexa Toolbar)” 表示的是用户所使用的电脑是与Netscape兼容的Mozilla浏览器,Windows NT操作系统,浏览器是IE6.0,装有Alexa Toolbar。

  2、接下来说说googlebot,我盼googlebot已经好久了,这几天它终于来了,然后我在www.google.com上输入site:seo.9ilp.com,果然看到了收录文件的更新。

  2009-08-23 00:07:20 66.249.65.116 - 218.85.132.68 80 GET /html/down/20070129/550.html - 200 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html)

  218.85.132.68查此IP直接给了结果“美国 GoogleBot 搜寻引擎机器人”,呵呵,goolgebot真出名,也很规范。

  3、Yahoo也要说说的:

  2009-08-23 00:04:45 202.160.178.195 - 218.85.132.68 80 GET /html/ad/20070131/658.html - 200 Mozilla/5.0+(compatible;+Yahoo!+Slurp+China;+http://misc.yahoo.com.cn/help.html)

  查IP得知是雅虎中国,Yahoo!+Slurp+China是雅虎蜘蛛名,以前是Inktomi Slurp;想查询网站在yahoo的收录情况与google和百度不同的是,你直接在www.yahoo.com.cn上输入网址即可。不用加前缀site:,还有一点,觉得这几个月的雅虎中国在技术上有改进,在网站收录和关键词搜索上,大家可以自己去体会。

  说完三大搜索爬虫,再来看看别的二流搜索引擎的爬虫及门户搜索的爬虫:

  1)msn: msn(msn live search beta)的搜索技术我个人觉得是难入流的,似乎比门户搜索更差,beta说明搜索版在测试阶段,现在电信采用msn的搜索技术,不知道电信的是什么眼光,呵呵。

  2009-08-23 08:22:15 65.55.213.7 - 218.85.132.68 80 GET /html/down/20070129/550.html - 200 msnbot-media/1.0+(+http://search.msn.com/msnbot.htm)

  2)Alexa:大名鼎鼎的世界排名Alexa,它的蜘蛛比较难记,是ia_archiver。从严格意义上说,它不知道是不是爬虫,它与纯搜索引擎不同,是来侦测流量的居多,并不是来收录网页的。

  2009-08-23 01:24:44 209.237.238.226 - 218.85.132.68 80 GET /html/internet/20070130/631.html - 200 ia_archiver

  3)Iask爱问:

  2009-08-23 11:56:47 60.28.164.44 - 218.85.132.68 80 GET /html/webpromote/20070203/935.html - 200 Mozilla/5.0+(compatible;+iaskspider/1.0;+MSIE+6.0)

  4)sogou搜狗:

  对于搜狗,我就觉得好笑了。大家记得我说过我的网站是改版过的,Brand是旧网站文件,早被我删除了。而且为了删除除搜索引擎收录的死链接,我在robots.txt文件中写着:Disallow: /Brand ,这当然禁止访问Brand下的文件,我这里想说的是,一、它sogou不遵守robots协议,二、对于已经删除近一个月的文件,它从哪里搜索而来。我真的不太明白了。

  2009-08-23 01:34:42 220.181.19.170 - 218.85.132.68 80 GET /404.htm 404;/underwear/Brand/Brand2.htm 200 sogou+spider

  5)yodaoice:

  对于这个,大家不要感觉惊讶,这是163新开发的搜索引擎,目前处于测试版,界面颇象google风格,但技术年幼,也象搜狗一样乱抓一通。2009-08-23 06:19:29 60.191.80.151 - 218.85.132.68 80 GET /404.htm 404;/underwear/4864.gif 200 yodaoice

  那么多爬虫盯上我的网站,一方面高兴的是就爱SEO论坛的发展还得靠它们,另一方面郁闷的是有些不按规则来抓的对网站的访问会有造成不良的影响。看看比前两周增长得多的日志文件就知道了。

  版权所有:就爱SEO论坛

  就爱SEO学习论坛本贴链接地址:http://seo.9ilp.com/thread-965-1-1.html

------分隔线----------------------------
------分隔线----------------------------

最新技术推荐