SEO关键词排名优化禁止抓取页面如何处理

有的时候,站长并不希望某些页面被收录(或者说被索引),如复制内容页面。网站上不出现链接,或者使用JavaSript、Flash 链接,使用 nofollow 等方法都不能保证页面一定不被收录。站长自己虽然没有链接到不想被收录的页面,其他网站上可能由于某种原因出现导入链接,导致页面被抓取和收录。
有的时候不希望某些页面被抓取,如付费内容、还在测试阶段的网站。还有一种很常见的情况,搜索引擎抓取了大量没有意义的页面,如电子商务网站按各种条件过滤、筛选的页面,各种排版格式的页面,这些页面数量庞大,抓取过多会消耗掉搜索引擎分配给这个网站的总抓取时间,造成真正有意义的页面反倒不能被抓取和收录。如果通过检查日志文件发现这些无意义页面被反复大量抓取,想要收录的页面却根本没被抓取过那应该直接禁止抓取无意义的页面。
抓取和收录(索引)是不同的两个过程。要确保页面不被抓取,需要使用 robots 文件,要确保页面不被收录,要使用Noindex Meta Robots 标签。
关键词排名优化的robots 文件
搜索引擎蜘蛛访问网站时,会先查看网站根目录下有没有一个命名为 robots.txt 的纯文本文件,robots.txt用于指令搜索引警禁止抓取网站某些内容或指定允许抓取某些内容,只有在需要禁止抓取某些内容时,写 robots.txt 才有意义。robots 文件不存在或者是空文件都意味着允许搜索引擎抓取所有内容。有的服务器设置有问题,robots 文件不存在时会返回 200 状态码及一些错误信息,而不是 404 状态码,这有可能使搜索引警错误解读robots 文件信息,所以建议就算允许抓取所有内容,也要建一个空的 robots.txt 文件放在根目录下。
主流搜索引擎都遵守 robots 文件指令,robots.txt 禁止抓取的文件搜索引擎将不访问,不抓取。但要注意的是,被 robots 文件禁止抓取的 URL还是可能被索引并出现在搜索结果中。只要有导入链接指向这个 URL,搜索引擎就知道这个 URL 的存在,虽然不会抓取页面内容,但是索引库中还是有这个 URL 的信息,并以下面几种形式显示在搜索结果中:
1、只显示URL,没有标题、描述。
显示开放目录或雅虎等重要目录收录的标题和描述,导入链接的错文字显示为标题和描述。
2、搜索引擎从其他地方获得的信息显示为标题和描述。
最著名的例子,淘宝整站用 robots 文件禁止百度蜘蛛抓取。但在百度搜索淘宝还是会返回首页及少量其他页面信息的,只不过页面标题和摘要来自其他来源,不是页面本身内容。
关键词排名优化noindex meta robots 标签
meta robots标签是很明显是页面meta指令标签,该指令通常用来禁止搜索引擎索引本页面内容的。要想使URL完全不出现在搜索结果中,需要使用页面上的 noindex meta robots 标签禁止索引。
网上很多资料说meta noindex 的作用是禁止抓取,这是错误的,正相反,要让 metanoindex 起作用,必须允许抓取,如果蜘蛛不抓取这个页面,根本看不到 meta noindex标签。













