程序员人生 网站导航

谷歌给托管服务商和网站管理员的一些建议

栏目:网络优化时间:2014-04-10 17:45:05
一些网站管理员常在谷歌论坛上咨询影响他们站点托管的问题,为帮助托管服务商和站长们识别、诊断以及解决这些问题,谷歌中文网站管理员博客今日发布博文与站长分享一些常见的问题及解决方法。

全文内容如下:

• 拦截Googlebot 抓取功能。这是一个非常普遍的问题,通常因防火墙配置错误或DoS保护系统所致,有时也因站点运行的内容管理系统所致。保护系统是形成好的托管服务的重要组成部分, 通过配置来拦截异常的服务器频繁的请求,但有时也可自动完成。然而Googlebot通常会执行比个人用户更多的请求,所以这些保护系统也会决定拦截 Googlebot,并阻止其抓取您的网站。如需查验此类问题,您可以使用网站管理员工具中的Googlebot抓取方式功能,并查看网站管理员工具显示的其它抓取错误。

我们向那些希望更有效地控制Googlebot抓取功能并提高抓取效率的网站管理员和托管服务商提供了几个工具:

我们就如何使用拒绝googlebot协议和配置 URL 参数来控制“Googlebot抓取方式”功能提供了详细的帮助。

如果您担心使用Googlebot的代理程序,我们提供了一个方法来验证该抓取工具是否为Googlebot。

如果您想改变Googlebot抓取您的站点的频率,您可在网站管理员工具中验证您的网站,并且改变Googlebot的抓取速度。托管服务商也可验证他们IP地址的所有权。

• 可用性问题。我们常见的另一类问题是当Googlebot (及用户)试图访问站点时,网站无法浏览。这通常是由DNS问题、服务器过载引起的超时和拒绝链接问题、错误的内容分发网络配置(CDNs)、以及很多其它类型的错误造成的。当Googlebot遇到这些问题时,我们将之视为网址无法访问错误或抓取错误并在网站管理员工具中报告该错误。

• 无效SSL证书。 要想SSL证书对您的网站生效,必须将它们与站点名称相匹配。常见问题包括过期的SSL证书,以及因服务器上所有网站使用同一个证书而导致的服务器错误配 置。在这些情况下,大部分浏览器会试图警告用户,Google则通过网站管理员工具发送一条信息来警告网站管理员。要解决这些问题,就要确保您所使用的 SSL证书对所有网站的域名以及您用户访问的子域名都有效。

• 通配符DNS。网站可通过配置来响应所有子域名的请求。例如,example.com的网站可以通过配置用来响应来自foo.example.com,made-up-name.example.com以及所有其它子域名的请求。

在某些情况下,这是网站管理员所希望发生的,例如一个用户生成内容的网站可自行选择给予每个账户各自的子域名。但在某些情况下,网站管理员可能不希望发生这种行为,因为这也许会引起不同的主机名将内容进行不必要的复制,还可能影响Googlebot抓取功能。

若想尽量减少通配符DNS设置中的出现的各种问题,您可以将您的网站设置成不使用它们,或者将您的服务器设置成对不存在的主机名不能成功响应,亦或拒绝连接或直接返回HTTP 404 页面。

• 虚拟主机错误配置。这种问题的特征是同一个服务器上托管的多主机和/或域名总是只返回一个站点的内容。换言之,尽管服务器托管多个站点,但它不管请求内容是什么却只返回一个站点。要诊断此问题,您需要验证服务器是否正确地响应了HTTP 主页面。

• 通过特定的URL托管复制内容。 很多主机基于测试/开发的目的,为您的网站提供URL。例如,如果您在托管网站example.com上托管http://a.com/,托管提供商可能 会提供如 http://a.example.com/ 或 http://example.com/~a/这样的URL地址来作为您网站的入口。我们建议不要将这些特定的URL托管设置成可被公开访问的状态(通过 密码保护它们);即便这些URL可被访问,我们的算法通常选择网站管理员所想要的URL地址。如果我们的算法选择特定的URL托管,您可通过正确执行规范化技术来对我们的算法做出改动,从而选择您首选的URL。

• 软错误页面。某些托管服务商用HTTP 200状态码(表示“成功”)而不是HTTP错误状态码来显示错误页面。例如,一个出现“页面无法访问”字样的错误页面可能会返回HTTP 200而不是404,从而造成软404页面;一条“网站暂时无法访问”信息返回的可能是HTTP 200,而不是正确地返回503HTTP状态码。我们努力检测软错误页面,但当我们的算法无法检测出主机软错误页面时,这些页面的错误内容可能被列入索引,导致分级或跨域选择网址的问题。

检测返回的状态码很简单:只需采用任一一种工具,如Googlebot抓取方式,查看服务器返回的HTTP页面。如果一个错误页面返回的是HTTP 200,那么我们可以改变配置使其返回正确的HTTP错误状态码。同样,请留意网站管理员工具软404报告中有关抓取错误页面的诊断方法。

• 内容修改和框架(frames)。 网站管理员可能惊讶于看到页面内容被托管服务商修改,尤其是在页面插入脚本或图片。除此之外,主机还可能通过使用frames或iframe将内容嵌入其 它页面来托管内容。如果想查看主机是否以您意料之外的方式修改您的内容,只需查看主机托管页面的源代码,并将其与您上传的代码进行比较。

请注意某些服务器端代码的修改可能非常有用。例如,一个使用Google Apache加速模块或其它工具的服务器可能会压缩代码来优化页面载入速度。

• 垃圾信息和恶意软件。 我们经常看见有部分主机和大量子域名服务成为恶意软件和垃圾邮件的主要来源,鉴于此,我们进行一些细微的操作来保护用户和提高搜索质量,但如果我们发现特 定的主机上绝大部分站点发送垃圾信息或传播恶意软件时,我们就不得不对整个主机采取行动。为帮您控制恶意软件,我们提供:

o 适用于托管服务商的网络管理员安全浏览警报

o 适用于个人网站的管理员工具的恶意软件通知

o 适用于开发人员的安全浏览API

------分隔线----------------------------
------分隔线----------------------------

最新技术推荐