SEO网站关键词推广优化必须解决蜘蛛爬取

搜索引蜘蛛通过跟踪链接访问网页,获得页面 HTML代码存入数据库就是蜘蛛的爬行和抓取。爬行和抓取是搜索引擎工作的第一步,完成数据收集的任务
蜘蛛
搜索引擎是通过程序来进行网站页面的爬行和访问工作,这个程序就被叫做蜘蛛,也被称为机器人。搜索引擎的蜘蛛访问网站页面与普通用户使用的浏览器有所不同。蜘蛛程序对待访问页面发出请求后,服务器返回HTML文件源码,蜘蛛把收到的代码存入搜索引擎数据库。搜索引擎为了提高爬行和抓取速度,会有很多个蜘蛛分布式的爬行。蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt文件。该文件可以禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址。咱们熟知的淘宝网页,就禁止百度蜘蛛爬取,所以在百度搜索中是不会出现淘宝平商家的商品的。和浏览器一样,搜索引擎蜘蛛也有标明自己身份的代理名称,站长可以在日志文件中看到搜索引擎的特定代理名称,从而辨识搜索引擎蜘蛛。
跟踪链接
为了抓取到网上尽可能多的网站页面,搜索引擎的蜘蛛会跟踪网站页面上的链接,从一个页面爬到另一个页面。整个互联网是由相互链接的网站及页面组成的,从理论上讲蜘蛛从任何一个页面出发,顺着链接就可以爬行到网上的所有页面。当然,由于网站及页面链接结构异常复杂,蜘蛛需要采取一定的爬行策略才能遍历网上所有页面。基本的爬行模式分为深度优先和广度优先两种,深度优先爬行模式就是指蜘蛛沿着某链接一直向前爬行,直到该链接的最深链接后返回到第一个页面然后再沿着另一个链接再一直往前爬行。在深度优先模式中,蜘蛛一直爬到无法再向前,才返回爬另一条线。广度优先是指蜘蛛在一个页面上发现多个链接时,不是顺着一个链接一直向前,而是把页面上所有第一层链接都爬一遍,然后再沿着第二层页面上发现的链接爬向第三层页面。在理想状态下无论是哪一种爬行模式,只要给蜘蛛足够多的时间,就能爬完整个互联网。但在实际中,由于蜘蛛受带宽资源、时间等条件的限制是不可能爬完所有网站页面的。实际上最大的搜索引擎也只是爬行和收录了互联网的一小部分。深度优先和广度优先通常是混合使用的,这样既可以照顾到尽量多的网站,也能照顾到一部分网站的内页。既然蜘蛛不能抓取所有的网站页面,在企业网站优化推广时那就让蜘蛛尽可能的优先抓取那些相对重要的页面,这是SEO惯用的手法之一。
吸引蜘蛛
在SEO人员进行网站优化推广时首先是想让自己更多的网站页面被收录,就会想方设法的去主动吸引蜘蛛来抓取自己网站页面。通常那些网站页面质量高、域名时间长的网站一般都会有比较高的权重,这种网站上的网面被爬行的深度比较高,当然被收录的内页也就多,所以SEO网站优化从权重出手也不失为一个有效的手段。蜘蛛每次爬行都会把网站页面的数据存储起来,如果下一次爬行时发现页面与上一次收录的完全一样,那就说明咱们的网站页面没有更新,这样就会降低蜘蛛的抓取频率。相反如果页面内容经常更新,蜘蛛对咱们网站的访问、抓取频率就会提升,网站页面上出现的新链接,也自然会被蜘蛛更快地访问、抓取咱们的新增页面。无论是外部链接还是同一个网站的内部链接,如果要被蜘蛛抓取,就必须建立导入链接进入页面,否则蜘蛛爬取那个页面的机会会比较小。高质量的导入链接能够大幅增加搜索引擎蜘蛛的爬行深度。一般情况一个网站权重最高的页面就是该网站的首页,同时一般建立的大部分外部链接也都是指向首页的,所以蜘蛛访问最频繁的也是首页,从这里我们就不难看出距离首页点击距离越近,页面权重越高,被蜘蛛爬行的机会也就越大,网站关键词排名优化的页面一定注意地址深度。
地址库
为了避免重复爬行和抓取网址,搜索引擎会建立一个URL地址库,记录已经被发现还没有抓取的页面和已经被抓取过的页面。地址库中的URL一般来源有人工录入的种子网站、蜘蛛解析出的链接URL、站长手动提交的网址。蜘蛛按重要性从待访问地址库中提取URL,访问并抓取页面,然后把这个URL从待访问地址库中删除,放入已访问的地址库中。大部分主流搜索引擎允许站长主动提交网址,不过这些提交来的网址都只是存入地址库而已,是否收录还要对页面进行重要性分析判定。绝大部分被搜索引擎收录的页面都是蜘蛛自己跟踪链接获取的,可以说站长主动提交的网站页面基本上作用不大,搜索引擎它更喜欢自己沿着链接发现的新页面。
爬行时的复制内容检测
检测并删除复制内容是在预处理过程中进行的,但现在的蜘蛛在爬行和抓取文件时也会进行一定程度的复制内容检测。遇到权重很低的网站上大量转载或抄袭内容时,很可能不再继续爬行。这也就是有的站长在日志文件中发现了蜘蛛,但页面从来没有被真正收录过的原因,所以做网站关键词推广优化就做好原创文章。













