网站地图    收藏   

主页 > 前端 > 网站SEO >

百度lee:搜索引擎索引系统概述(二) - 搜索优

来源:自学PHP网    时间:2015-04-15 10:59 作者: 阅读:

[导读] 10月21日,百度lee简要介绍了搜索引擎索引系统概述(一),主要讲的就是搜索引擎的倒排索引,还是先来百科一下:Query,是查询的意思,为了在数据库中寻找...

 10月21日,百度lee简要介绍了搜索引擎索引系统概述(一),主要讲的就是搜索引擎的倒排索引,还是先来百科一下:Query,是查询的意思,为了在数据库中寻找某一特定文件、网站、记录或一系列记录,由搜索引擎或数据库送出的消息;term是单词文本,即关键词。

  今天,百度Lee公布了搜索引擎索引系统概述第二部分,以下是原文:

  实际上在建立倒排索引的最后还需要有一个入库写库的过程,而为了提高效率这个过程还需要将全部term以及偏移量保存在文件头部,并且对数据进行压缩,这涉及到的过于技术化在此就不多提了。今天简要给大家介绍一下索引之后的检索系统。

  检索系统主要包含了五个部分,如下图所示:

  

\

 

  (1)Query串切词分词即将用户的查询词进行分词,对之后的查询做准备,以“10号线地铁故障”为例,可能的分词如下(同义词问题暂时略过):

  10 0x123abc

  号 0x13445d

  线 0x234d

  地铁 0x145cf

  故障 0x354df

  (2)查出含每个term的文档集合,即找出待选集合,如下:

  0x123abc 1 2 3 4 7 9…..

  0x13445d 2 5 8 9 10 11……

  ……

  ……

  (3)求交,上述求交,文档2和文档9可能是我们需要找的,整个求交过程实际上关系着整个系统的性能,这里面包含了使用缓存等等手段进行性能优化;

  (4)各种过滤,举例可能包含过滤掉死链、重复数据、色情、垃圾结果以及你懂的;

  (5)最终排序,将最能满足用户需求的结果排序在最前,可能包括的有用信息如:网站的整体评价、网页质量、内容质量、资源质量、匹配程度、分散度、时效性等等,之后会详细给大家介绍。

  好了,上面的的大家可能不太懂,木木SEO给大家来解释一下:

  前面(1)就是搜索引擎将提取文中关键词,按分词程序划分好的词,同时记录每个词在页面中出现的频率、出现的次数、格式(如加粗、倾斜、黑体、H标签、加颜色、锚文字等)、位置。然后把这些词语记录为串关键词集合,那么这些词的相关信息如格式、权重等也会记录在案。实际在搜索引擎中每个关键词也被转换为ID形式记录,然后每个文件ID对应一串关键词ID。这种每个文件ID对应一个串关键词ID这样的数据结构被称之为正向索引。比如文件1对应1、2这二个关键词,文件2对应1、3这二个关键词。

  

\

 

  而(2)就是将每一串关键词ID对应文件ID,比如关键词2对应文件1、3,如此一来大大缩短搜索引擎扫描索引库中的文件,缩短扫描时间。提升搜索引擎的效率。

  文章编辑自:木木SEO博客 http://blog.sina.com.cn/mumuhouzi 有问题可以咨询!

自学PHP网专注网站建设学习,PHP程序学习,平面设计学习,以及操作系统学习

京ICP备14009008号-1@版权所有www.zixuephp.com

网站声明:本站所有视频,教程都由网友上传,站长收集和分享给大家学习使用,如由牵扯版权问题请联系站长邮箱904561283@qq.com

添加评论