扫二维码手机阅读乔选红网络营销博客

当前位置:首页 » SEO优化 » 正文

搜索引擎预处理(引擎)策略

2416 人参与  2018年07月19日 20:47  分类 : SEO优化  点这评论

  蜘蛛爬行抓取网站后,接下来就是预处理(索引).蜘蛛抓取的原始页面不直接用于查询排名处理,而是先经过预处理,为查询关键词时的排名做准备。预处理主要包括内容处理.中文分词.去重索引和用户体验判断等方面.

搜索引擎预处理(引擎)策略

  (1)内容处理

  内容处理包括提取网页文本信息,特殊文件处理,消除噪声和去停止词四个方面。

  a.搜索引擎以文字内容为基础,预处理首先要做的就是从蜘蛛抓取的HTML文件中去除标签,程序代码,提取出可以用于排名处理的页面文字内容。

  b.特殊文件处理:搜索引擎可以抓取以文字为基础的多种文件类型,如Word、WPS,XLS.TXT 文件等,但是对这些文件的排名还是依据与之相关的文字内容,

  c.噪声是指页面中对页面主题没有贡献的内容,如导航条,广告等,这些内容对页面主题起分散作用。消除噪声的基本方法是根据HTML标签对页面进行分块c

  d.去停止词:无论是英文还是中文,都会有一些出现频率很高,对内容没有影响的助词,感叹词,副词或介词等,需要去掉这些停止词。

  (2)中文分词

  中文分词是中文搜索引擎特有的步骤。中文词与词之间没有分隔符,一个句子中的所有字和词都是连在一起的,搜索引擎需要分辨哪几个字组成一个词,哪些字本身就是一个词。

  (3)去重

  搜索引擎在进行索引前还需要识别和删除重复内容。

  (4)索引

  这里所说的索引是指倒排索引,是搜索引擎所使用的索引方式。,如图1-6所示,如果用户搜索“关键词2",只存在正向索引,排名程序需要扫描所有索引库中的文件,找出包含“关键词2”的文件,再进行相关性计算。这样的计算量无法满足短时返回排名

  结果的要求,因此需要搜索引擎将正向索引数据库重新构造成倒排索引,把文件对应到关键词的映射转换为关键词到文件的映射。

  (5)用户体验判断

  搜索引擎以用户体验为中心,网络用户的体验对搜索引擎的排名影啊越来越大。搜索引擎根据正常用户体验反馈的信息来讲行用户体验判断,增加浏览的舒适度。

来源:乔选红博客(微信/QQ号:1072540791),转载请保留出处和链接!

本文链接:https://qiaoxuanhong.com/713.html

本文标签:搜索引擎策略  

微信公众号:qiaoxuanhong1989

新浪微博:乔选红

加入【互联网精英创享联盟】QQ群: 176737370(加群验证:乔选红博客)

欢迎收藏本站,每天更新高质量网络营销干货。

<< 上一篇 下一篇 >>

相关文章

  • 关于本站 - 免费声明 - 广告服务 - 链接出售 - 网站招聘 - 投稿中心 - 联系我们 - 认识博主 - 标签列表 - 网站地图 - 百度统计
  • Copyright © 2016-2020 乔选红博客 版权所有 苏ICP备14049827号-2
  • 我们提供网络营销推广网络营销策划网络营销培训服务