seo优化技术:搜索引擎预处理(引擎)策略

 蜘蛛爬行抓取网站后,接下来就是预处理(索引).蜘蛛抓取的原始页面不直接用于查询排名处理,而是先经过预处理,为查询关键词时的排名做准备。预处理主要包括内容处理.中文分词.去重索引和用户体验判断等方面.

 (1)内容处理

 内容处理包括提取网页文本信息,特殊文件处理,消除噪声和去停止词四个方面。

 a.搜索引擎以文字内容为基础,预处理首先要做的就是从蜘蛛抓取的HTML文件中去除标签,程序代码,提取出可以用于排名处理的页面文字内容。

 b.特殊文件处理:搜索引擎可以抓取以文字为基础的多种文件类型,如Word、WPS,XLS.TXT
文件等,但是对这些文件的排名还是依据与之相关的文字内容,

 c.噪声是指页面中对页面主题没有贡献的内容,如导航条,广告等,这些内容对页面主题起分散作用。消除噪声的基本方法是根据HTML标签对页面进行分块c

 d.去停止词:无论是英文还是中文,都会有一些出现频率很高,对内容没有影响的助词,感叹词,副词或介词等,需要去掉这些停止词。

 (2)中文分词

 中文分词是中文搜索引擎特有的步骤。中文词与词之间没有分隔符,一个句子中的所有字和词都是连在一起的,搜索引擎需要分辨哪几个字组成一个词,哪些字本身就是一个词。

 (3)去重

 搜索引擎在进行索引前还需要识别和删除重复内容。

 (4)索引

 这里所说的索引是指倒排索引,是搜索引擎所使用的索引方式。,如图1-6所示,如果用户搜索“关键词2",只存在正向索引,排名程序需要扫描所有索引库中的文件,找出包含“关键词2”的文件,再进行相关性计算。这样的计算量无法满足短时返回排名

 结果的要求,因此需要搜索引擎将正向索引数据库重新构造成倒排索引,把文件对应到关键词的映射转换为关键词到文件的映射。

 (5)用户体验判断

 搜索引擎以用户体验为中心,网络用户的体验对搜索引擎的排名影啊越来越大。搜索引擎根据正常用户体验反馈的信息来讲行用户体验判断,增加浏览的舒适度。

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

  暂无评论内容