« 上一篇 【谷歌蜘蛛名称大全】绝对不仅仅只是你知道的Googlebot一文看懂robots怎么写:蜘蛛协议robots.txt写法实例详解 下一篇 »

SEO常识:不同HTTP返回码搜索引擎如何处理

HTTP常见返回状态表现在用户端通常是网页能打开、网不能访问。页反馈在搜索引擎的蜘蛛程序则会表现在具体的状态码,如我们通常知道的:200表示正常访问、301为永久重定向、302临时重定向、404页面无法访问、501服务器故障 等等。那么,搜索引擎蜘蛛发起访问时,对于不同的HTTP返回状态是如何处理呢?

蜘蛛处理HTTP返回码的方式:

2xx(200访问成功):HTTP 结果代码,表示成功的“有条件地允许”抓取结果。

3xx(访问被重定向):一般情况下,系统会跟踪重定向,直到发现有效的结果(或确认出现循环)。我们会跟踪有限次数的重定向(适用于 HTTP/1.0 的 RFC 1945 最多允许 5 次重定向),然后便会停止,并将其处理为 404 错误。我们并未定义如何处理指向禁止网址的 robots.txt 重定向,并且不建议用户这么做。同样,我们也未定义如何根据返回 2xx 的 HTML 内容处理 robots.txt 文件的逻辑重定向(框架、JavaScript 或元刷新型重定向),并且不建议用户这么做。

对于3XX的返回状态,祥子想在这里着重强调两点:
1. 因为SEO经常会用到URL跳转。你只要记住一点就行了:URL改版一定要使用301!SSL改造完成后,不带S的完整URL跳转到https一定使用301。301与302跳转在浏览器的效果是一模一样的,但是301表示永久跳转,这有助于你告诉搜索引擎:请收录跳转后的URL以代替老的网址。
2. 重定向超过5次,搜索引擎会放弃该次抓取。这种极端情况并不是不会发生,比如 服务器设置了较严格的安全策略而没有正确的将蜘蛛加入白名单,或者网站刚好在进行SSL改造时又进行了URL规则的改版。至少这两种情况是祥子亲自遇到过的情况,导致多次重定向的发生。 诊断出这些情况后,应及时与运维、技术部门沟通解决,这类问题是一定可以解决的。

4xx(客户端错误):Google 对所有 4xx 错误都采用同一种处理方式,并且假定不存在有效的 robots.txt 文件。Google 假定不存在任何限制。这表示抓取时“全部允许”。

包括 401“未授权”和 403“禁止访问”HTTP 结果代码。

5xx(服务器错误):我们将服务器错误视作会导致抓取作业“全部禁止”的临时性错误。系统会再次尝试发送该请求,直到获得非服务器错误的 HTTP 结果代码。503(服务不可用)错误会导致非常频繁的重试操作。要暂停抓取,我们建议您提供 503 HTTP 结果代码。我们并未定义如何处理永久性服务器错误。(Google 专用:如果我们能够确定,某网站因为配置不正确而在缺少网页时返回 5xx 错误而不是 404 错误,那么我们会将该网站的 5xx 错误处理成 404 错误。)

最后,SEO祥子想提醒大家,一定要养用定时查看服务器日志的习惯,以便及时诊断搜索引擎抓取网站的数量以及是否遇到故障。