SEO网站关键词优化推广中的收录预处理

在一些 SEO 材料中“预处理”也被简称为“索引”,因为索引是预处理最主要的步骤。搜索引擎蜘蛛抓取的原始网站页面是不能直接用于搜索排名处理的。搜索引擎数据库中的页面数都在数万亿级别以上,用户输入搜索词后,靠排名程序实时对这么多页面分析相关性,计算量太大,不可能在一两秒内返回排名结果。因此抓取来的页面必须经过预处理,为最后的查询排名做好准备,和爬行抓取一样,预处理也是在后台提前完成的,用户搜索时感觉不到这个过程。
网站关键词优化推广的文字提取
现在的搜索引擎还是以文字内容为基础。蜘蛛抓取到的页面中的 HTML代码,除了用户在浏览器上可以看到的可见文字外,还包含了大量的 HTML 格式标签、JavaScript 程序等无法用于排名的内容搜索引擎预处理首先要做的就是从HTML 文件中去除标签、程序提取出可以用于排名处理的网页面文字内容,除了可见的文字之外,搜索引擎还会提取出一些特殊的信息的代码,诸如一些标签内的文字。
网站关键词优化推广的关键词分词
分词是中文搜索引警特有的步骤。搜索引擎存储和处理页面及用户搜索都是以词为基础的。中文的词汇与词汇之间没有任何分隔符,一个句子中的所有字和词都是连在一起的。搜索引擎必须首先分辨哪几个字组成一个词,哪些字本身就是一个词。
搜索引擎进行中文分词的方式可以分为词典匹配和数据统计匹配这两种。词典匹配的方式是指将待分析的一段汉字与一个事先造好的词典中的词条进行匹配,如果在待分析汉字串中扫描到词典中已有的词条就匹配成功了。按照匹配长度优先级的不同,又可以分为最大匹配和最小匹配。将扫描方向和长度优先混合,又可以产生正向最大匹配、逆向最大匹配等不同方法。词典匹配的方式计算比较简单,这种匹配方式的准确度就取决于词典的完整性。基于数据统计的分词方式是指经过分析大量文字样本,计算出字与字相邻出现的统计概率,几个字相邻出现越多,就越可能形成一个单词。基于统计的方法的优势是对新出现的词反应更快速,也有利于消除歧义。
中文分词的准确性往往影响搜索引擎排名的相关性。网站页面的分词完全取决于搜索引擎词库的规模以及词库的准确性和搜索引擎自身的分词算法,所以在进行关键词排名优化的SEO人员对分词所能做的很少。唯一能做的是在页面上用某种形式提示搜索引擎,某几个字应该被当做一个词处理,尤其是可能产生歧义的时候。
网站关键词优化推广的去停止词
网站页面的内容中经常会有一些对内容没有任何影响的词,如一些助词、感叹词、副词以及介词。这些词就被称为停止词,因为它们对页面的主要意思没什么影响。搜索引擎在索引页面之前会去掉这些停止词,使索引数据主题更为突出,减少无谓的计算量。
网站关键词优化推广的消除噪声
绝大部分页面上的一部分内容对页面主题也没有什么贡献的,比如版权声明文字、导航条、广告等。网站页面机构中的这些板块都属于噪声,这些板块对网站页面主题只能起到分散作用。搜索引擎会自动识别并消除这些噪声,排名时是不考虑噪声内容的。
网站关键词优化推广的去重
搜索引擎在收录时是要对页面进行去重处理的。搜索引擎并不喜欢这种同一篇文章重复出现在不同网站或同一个网站的不同网址上的内容。这种内容在用户搜索时用户体验也是比较差的。对于重复内容搜索引擎希望只返回相同文章中的一篇,所以在进行索引搜索引擎会识别并删除重复内容,这个过程就被称为去重。去重的基本方法是对页面特征关键词进行计算,也就是说从页面主体内容中选取最有代表性的一部分关键词然后计算这些关键词的数字指纹。明白了搜索引擎的去重算法,SEO 人员就应该知道简单地增加“的”“地”“得”调换段落顺序这种所谓伪原创,并不能逃过搜索引擎的去重算法,因为这样的操作无法改变文章的特征关键词。而且搜索引擎的去重算法很可能不止于页面级别,而是进行到段落级别,混合不同文章、交叉调换段落顺序也不能使转载和抄袭变成原创。
网站关键词优化推广的正向索引
搜索引擎中的正向索引也可以简称为索引。在经过对页面文字的提取、分词、消噪、去重之后,搜索引擎就会得到一份以词为单位的独特并且能够反映网站页面主体内容的文字。接下来搜索引擎索引程序就可以提取关键词,按照分词程序划分好的词,把页面转换为一个关键词组成的集合,同时记录每一个关键词在页面上的出现频率、出现次数、格式、位置。这样,每一个页面都可以记录为一串关键词集合,其中每个关键词的词频、格式、位置等权重信息也都记录在案。
搜索引擎索引程序将页面及关键词形成词表结构存储进索引库。每个文件都对应一个文件ID,文件内容被表示为一串关键词的集合。实际上在搜索引擎索引库中,关键词也已经转换为关键词ID。这样的数据结构就称为正向索引。
网站关键词优化推广的倒排索引
正向索引还不能直接用于排名。假设用户搜索关键词SEO网站推广优化,如果只存在正向索引,排名程序需要扫描所有索引库中的文件,找出包含关键词SEO网站推广优化的文件,再进行相关性计算。这样的计算量无法满足实时返回排名结果的要求。
所以搜索引擎会将正向索引数据库重新构造为倒排索引,把文件对应到关键词的映射转换为关键词到文件的映射。在倒排索引中关键词是主键,每个关键词都对应着一系列文件,这些文件中都出现了这个关键词。这样当用户搜索某个关键词时,排序程序在倒排索引中定位到这个关键词,就可以马上找出所有包含这个关键词的文件。
网站关键词优化推广的链接关系计算
搜索引擎的链接关系计算也是预处理中非常重要的一部分。现在所有主流搜索引擎的排名因素中都包含网页之间的链接信息。搜索引擎在抓取网站页面内容后都要进行链接指向计算,这些繁杂的链接之间的指向关系就形成了网站和页面的链接权重。
网站关键词优化推广的特殊文件处理
搜索引擎的蜘蛛除了能够抓取HTML这种超文本语言文件外还能抓取和索引以文字为基础的其它文件类型,如PDF、Word、WPS、XLS、PPT、TXT文件等。我们在搜索结果中也经常会看到这些文件类型。但目前的搜索引擎还不能处理图片、视频、Flash 这类非文字内容,也不能执行脚本和程序。虽然搜索引擎在识别图片及从Flash中提取文字内容方面有些进步,不过距离直接靠读取图片、视频、Flash内容返回结果的目标还很远。对图片、视频内容的排名还往往是依据与之相关的文字内容。













