预处理

  • A+
所属分类:SEO搜索引擎优化

预处理、爬行抓取 链接到“工作原理”文中

在一些SEO材料中,“预处理”也被简称为“索引”,因为索引是预处理最主要的内容。

预处理

搜索引擎蜘蛛抓取的原始页面,并不能直接用于查询排名处理。搜索引擎数据库中的页面数都在数万亿级别以上,用户输入搜索词后,靠排名程序实时对这么多页面分析相关性,计算量太大,不可能在一两秒内返回排名结果。因此抓取来的页面必须经过预处理,为最后的查询排名做好准备。

和爬行抓取一样,预处理也是在后台提前完成的,用户搜索时感觉不到这个过程。

1、提取文字

国内搜索引擎还是以文字内容为基础,蜘蛛抓取到的页面HTML代码,除了用户在浏览器上可以看到的可见文字外,还包含了大量的HTML格式标签、JavaScript程序等无法用于排名的内容。搜索引擎预处理首先做的就是从HTML文件中取出标签、程序,提取出可以用于排名处理的页面文字内容。

除了可见文字,搜索引擎也会提取一些特殊的包含文字信息的代码,如Meta标签中的文字、图片替代文字、Flash文件的替代文字、链接锚文字等。

2、中文分词

分词是中文搜索引擎特有的步骤。搜索引擎储存和处理页面内容及用户查询都是以词为基础的。英文等语言单词与单词之间没有任何分隔符,搜索引擎程序可以把句子划分为单词的集合。而中文搜索引擎必须分辨那几个字组成一个词,那些字本身就是一个词。

中文分词方法基本上有两种,一种是基于词典匹配,另一种是基于统计。

搜索引擎对页面的分词取决于词库的规模、准确性和分词算法的好坏,而不是取决于页面本身如何,所以SEO人员对分词能做的很少。唯一能做的是在页面上用某种形式提示搜索引擎,某几个字应该被当做一个词处理,尤其是可能产生歧义的时候,比如在页面标题、H1标签及黑体中出现关键词。如果页面是关于“和服”的内容,那么可以把“和服”这两个字体特意标为黑体。如果页面是关于“化妆和服装”,可以把“服装”两个字标为黑体。这样,搜索引擎对页面进行分析时就知道标为黑体的应该是一个词。

3、去停止词

页面中会出现一些出现频率很高,却对内容没有任何影响的词,如“的、地、得”之类的助词,“啊、哈、呀”之类感叹词等。

搜索引擎在索引页面之前会去掉这些停止词,使索引数据主题更为突出,减少无畏的计算量。

4、消除噪声

搜索引擎需要识别并消除噪声,排名时不使用噪声内容。消噪的基本方法是根据HTML标签对页面分块,区分出页头、导航、正文、页脚、广告等区域,在网站上大量重复出现的区块往往属于噪声。对页面进行消噪后,剩下的才是页面主题内容。

5、去重

“去重”的基本方法是对页面特征关键词计算指纹,也就是说从页面主体内容中选取最具有代表性的一部分关键词(经常使出现频率最高的关键词),然后计算这些关键词的数字指纹。这里的关键词选取是在分词、去停止词、消噪之后。实验表明,通常选取10个特征关键词就可以达到比较高的计算准确性,再选取更多词对去重准确性提高的贡献就不大了。

SEO人员就应该知道简单地增加“的、地、得”、调换段落顺序这种所谓伪原创,并不能逃过搜索引擎的去重算法,因为这样操作无法改变文章的特征关键词,也就无法改变指纹。而且搜索引擎的去重算法很可能不止于页面级别,而是进行到段落级别,混合不同文章、交叉调换段落顺序也不能使转载和抄袭变成原创。

6、正向索引

也简称为索引。

经过文字提取、分词、消噪、去重后,搜索引擎得到的就是独特的、能反映页面主体内容的、以词为单位的字符串。接下来搜索引擎程序就可以提取关键词,按照分词程序划分好的词,把页面转换为一个关键词组成的集合,同时记录每一个关键词在页面上出现频率、出现次数、格式、位置等信息。这样,每一个页面都可以记录为一串关键词集合,其中每个关键词的词频、格式、位置等权重信息也都记录在案。

7、倒排索引

正向索引还不能直接用于排名,所以搜索引擎会将正向索引数据库重新构造为倒排索引,把文件对应到关键词的映射转换为关键词到文件的映射。

在倒排索引中关键词是主键,每个关键词都对应着一系列文件,那些文件中都出现了这个关键词。这样当用户搜索某个关键词时,排序程序在倒排索引中定位到这个关键词,就可以马上找出所有包含这个关键词的文件。

  • 我的微信
  • 这是我的微信扫一扫
  • weinxin
  • 微信公众号
  • 我的微信公众号扫一扫
  • weinxin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: