seo优化技术:搜索引擎预处理(引擎)策略

  • A+
所属分类:SEO基础知识

  蜘蛛爬行抓取网站后,接下来就是预处理(索引).蜘蛛抓取的原始页面不直接用于查询排名处理,而是先经过预处理,为查询关键词时的排名做准备。预处理主要包括内容处理.中文分词.去重索引和用户体验判断等方面.

  (1)内容处理

  内容处理包括提取网页文本信息,特殊文件处理,消除噪声和去停止词四个方面。

  a.搜索引擎以文字内容为基础,预处理首先要做的就是从蜘蛛抓取的HTML文件中去除标签,程序代码,提取出可以用于排名处理的页面文字内容。

  b.特殊文件处理:搜索引擎可以抓取以文字为基础的多种文件类型,如Word、WPS,XLS.TXT
文件等,但是对这些文件的排名还是依据与之相关的文字内容,

  c.噪声是指页面中对页面主题没有贡献的内容,如导航条,广告等,这些内容对页面主题起分散作用。消除噪声的基本方法是根据HTML标签对页面进行分块c

  d.去停止词:无论是英文还是中文,都会有一些出现频率很高,对内容没有影响的助词,感叹词,副词或介词等,需要去掉这些停止词。

  (2)中文分词

  中文分词是中文搜索引擎特有的步骤。中文词与词之间没有分隔符,一个句子中的所有字和词都是连在一起的,搜索引擎需要分辨哪几个字组成一个词,哪些字本身就是一个词。

  (3)去重

  搜索引擎在进行索引前还需要识别和删除重复内容。

  (4)索引

  这里所说的索引是指倒排索引,是搜索引擎所使用的索引方式。,如图1-6所示,如果用户搜索“关键词2",只存在正向索引,排名程序需要扫描所有索引库中的文件,找出包含“关键词2”的文件,再进行相关性计算。这样的计算量无法满足短时返回排名

  结果的要求,因此需要搜索引擎将正向索引数据库重新构造成倒排索引,把文件对应到关键词的映射转换为关键词到文件的映射。

  (5)用户体验判断

  搜索引擎以用户体验为中心,网络用户的体验对搜索引擎的排名影啊越来越大。搜索引擎根据正常用户体验反馈的信息来讲行用户体验判断,增加浏览的舒适度。

  • 我的微信
  • 技术咨询
  • weinxin
  • 微信公众号
  • 营销技巧分享
  • weinxin
马找钱

发表评论

:?::razz::sad::evil::!::smile::oops::grin::eek::shock::???::cool::lol::mad::twisted::roll::wink::idea::arrow::neutral::cry::mrgreen: