网站地图    收藏   

主页 > 前端 > 网站SEO >

浅谈从谷歌索引库或搜索结果中移除内容 - 搜索

来源:自学PHP网    时间:2015-04-15 10:59 作者: 阅读:

[导读] 从谷歌网站管理员工具中删除网址,或者使用robots文件屏蔽蜘蛛抓取某类型链接,那么谷歌便会自然而然地将这些内容从索引库中删除,想必有不少人都这么认为的吧,包括我,但其实...

  “从谷歌网站管理员工具中删除网址,或者使用robots文件屏蔽蜘蛛抓取某类型链接,那么谷歌便会自然而然地将这些内容从索引库中删除”,想必有不少人都这么认为的吧,包括我,但其实这是不完全正确的。

  首先,谷歌管理员删除网址工具主要是用来删除两类型网址:一种是404错误网址,另一种是蜘蛛在日志文件中大量爬取的无效地址(网站内部链接、带参数链接等)。当我们对这两种地址提交删除后,可能在搜索结果中不再显示这两种类型地址。但在搜索引擎索引库中,对于有明确的HTTP返回码为404 Not Found的页面,是不再存在索引库中的;而对于第二种蜘蛛大量爬取的无效地址,实际上是仍然存在索引库中的。

  其次,使用robots文件屏蔽蜘蛛抓取某类型链接,是可以阻止谷歌索引这些链接,不过得看你是在谷歌索引这些链接前使用robots文件屏蔽,还是说在谷歌索引这些链接之后才使用robots文件屏蔽,这两种操作方式的效果是不同的。对于第一种,在谷歌索引这些链接前就使用robots文件屏蔽了你不希望被抓取的链接,那么这部分链接既然都不会被抓取,更不用说会被收录到谷歌索引库了;对于第二种,在谷歌索引这些链接之后才使用robots文件屏蔽某类型链接,那么这类型链接还是会存在谷歌索引库中的,只不过是蜘蛛不会再爬取这些链接,在搜索结果中也不会展示这些链接,同时也可以让蜘蛛在有限的爬取量内去抓取更多有意义的链接。

  通过以上的介绍,无非是想说明,从谷歌索引库中移除内容和从搜索结果中移除内容,是两个不同的概念;从索引库中移除的内容是肯定不会展示在搜索结果中,但从搜索结果中移除的内容,可能还是会存在索引库中的,这会影响到我们对网站索引量的有效统计。

  因此,要想从谷歌索引库中移除内容,那么这些内容链接得能被蜘蛛爬取,同时这些内容链接不能被robots文件所屏蔽,可以通过以下3种途径进行处理:

  (1) 元标记

  可以在页面<head>代码中添加 <meta name="robots" content="noindex,follow"> 防止页面被编入索引

  (2)404或410标记

  404——没有发现文件、查询或URL

  410——服务器上不再有此资源且无进一步的参考地址

  这两个标记通常被认为是一样的,只不过仍存在细微差别:410标记一般就没再次抓取的必要了,因此标记410的链接会比标记404的链接从谷歌索引库中移除内容的速度会快些。实际上这两者的细微区别并不重要,但如果你有能力使用好410标记,那也是个不错的选择。

  当蜘蛛爬取到404/410错误链接时,会在网站日志和管理员工具中的抓取错误部分体现出来,这时你便可以通过删除网址工具予以删除,且那些删除的内容也不会被编入索引。

  (3)301重定向或其它方式

  301重定向对于从谷歌索引库中移除内容,也是个不错的选择,并且能传递大部分旧链接的权重到新链接上。不过,这个过程比较长些,且对于经过多长时间能够将旧链接的权重传到到新链接上、传递权重的比例能占到多少等,这些Google并未作明确说明。

  以上内容均是笔者的个人见解,如果有不对的地方,欢迎进行斧正或讨论。

自学PHP网专注网站建设学习,PHP程序学习,平面设计学习,以及操作系统学习

京ICP备14009008号-1@版权所有www.zixuephp.com

网站声明:本站所有视频,教程都由网友上传,站长收集和分享给大家学习使用,如由牵扯版权问题请联系站长邮箱904561283@qq.com

添加评论