网络营销策划|网络营销方案|企业网络营销推广策划
蜘蛛爬行抓取网站后,接下来就是预处理(索引).蜘蛛抓取的原始页面不直接用于查询排名处理,而是先经过预处理,为查询关键词时的排名做准备。预处理主要包括内容处理.中文分词.去重索引和用户体验判断等方面.
(1)内容处理
内容处理包括提取网页文本信息,特殊文件处理,消除噪声和去停止词四个方面。
a.搜索引擎以文字内容为基础,预处理首先要做的就是从蜘蛛抓取的HTML文件中去除标签,程序代码,提取出可以用于排名处理的页面文字内容。
b.特殊文件处理:搜索引擎可以抓取以文字为基础的多种文件类型,如Word、WPS,XLS.TXT 文件等,但是对这些文件的排名还是依据与之相关的文字内容,
c.噪声是指页面中对页面主题没有贡献的内容,如导航条,广告等,这些内容对页面主题起分散作用。消除噪声的基本方法是根据HTML标签对页面进行分块c
d.去停止词:无论是英文还是中文,都会有一些出现频率很高,对内容没有影响的助词,感叹词,副词或介词等,需要去掉这些停止词。
(2)中文分词
中文分词是中文搜索引擎特有的步骤。中文词与词之间没有分隔符,一个句子中的所有字和词都是连在一起的,搜索引擎需要分辨哪几个字组成一个词,哪些字本身就是一个词。
(3)去重
搜索引擎在进行索引前还需要识别和删除重复内容。
(4)索引
这里所说的索引是指倒排索引,是搜索引擎所使用的索引方式。,如图1-6所示,如果用户搜索“关键词2",只存在正向索引,排名程序需要扫描所有索引库中的文件,找出包含“关键词2”的文件,再进行相关性计算。这样的计算量无法满足短时返回排名
结果的要求,因此需要搜索引擎将正向索引数据库重新构造成倒排索引,把文件对应到关键词的映射转换为关键词到文件的映射。
(5)用户体验判断
搜索引擎以用户体验为中心,网络用户的体验对搜索引擎的排名影啊越来越大。搜索引擎根据正常用户体验反馈的信息来讲行用户体验判断,增加浏览的舒适度。
来源:乔选红博客(微信/QQ号:1072540791),转载请保留出处和链接!
本文链接:https://qiaoxuanhong.com/713.html
本文标签:搜索引擎策略
微信公众号:qiaoxuanhong1989
新浪微博:乔选红
加入【互联网精英创享联盟】QQ群: 176737370(加群验证:乔选红博客)
欢迎收藏本站,每天更新高质量网络营销干货。