
文章插图
5.4 倒排索引假如我们对10000个网页进行了分词,其中包含了一些公共检索词:微山湖、智取威虎山、三十而立、隐秘的角落等,因此我们汇总之后将建立检索词->网页的映射关系 。

文章插图
那么对于检索词"隐秘的角落"出现很多个网页,倒排索引就相当于从一个词能拉取到多少文章的过程 。

文章插图
就如同我们提到美食就想到:火锅、烧烤、烤鸭、炒菜等等,是一个从点到面的过程,这种逆向过程在搜索引擎中非常重要 。

文章插图
5.5 本章小结内容处理模块将抓取到的网页进行清洗、提前新URL给爬虫模块、内容分词、建立正排索引和倒排索引,是个承上启下的中间环节 。
特别地,提一下正排索引和倒排索引,字面上并不直观,其实道理并不难理解:
正排索引:具体到一篇网页有多少关键词,特指属于该网页本身的内容集合,是一个网页 。
倒排索引:一个检索关键词对应多少相关联的网页,也就是可备选网页集合,是一类网页 。

文章插图
网页排序和用户模块
6.1 网页排序的必要性【通用搜索引擎背后的技术点】由于存储的网页是百千亿级的,那么一个检索词可能对于几万、几十万甚至更多相关的网页 。
网页排序需要综合考虑:相关性、权威性、时效性、丰富度等多个方面 。
搜索引擎要展示优质的强关联网页给用户,并且放在靠前的位置,否则搜索效果将会很差,用户并不买账 。
事实上也是如此,比如搜索引擎返回了10页结果,每页10条,总结100条,一般用户点击到1-3页之后的网页大概率就不再点击了,因此排序的头部内容对于搜索结果至关重要 。
我们仍然以检索"隐秘的角落"为例,百度共计返回了10页,其中1-2页的内容是强关联的,是个比较不错的检索结果了:

文章插图
6.2 网页排序的常见策略网页排序策略是个不断优化和提升的演进过程,我们来一起看下都有哪些排序策略:
- 基于词频和位置权重的排序
简单来说就是根据网页中关键词的出现频率以及出现位置作为排序依据,因为普遍认为:检索词出现次数越多、位置越重要,网页的关联性越好,排名越靠前 。
词频并不是单纯的统计次数,需要有全局观念来判断关键词的相对次数,这就是我们要说的TF-IDF逆文档频率,来看下百度百科的解释:
TF-IDF (term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术 。
TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency) 。
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度 。举个栗子:
字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降 。
网页中"吃饭"这个词出现了10次,虽然次数很多,但是"吃饭"这个词过于普通,因为在很多其他网页都出现了,因此"吃饭"这个检索词的重要性就相对下降了 。
- 基于链接分析的排序

文章插图
基于链接分析的排序算法有很多种,其中最有名的PageRank算法被谷歌广泛采用,是其核心排序算法 。
来看下PageRank算法的基本思想:
网页的重要程度用PageRank值来衡量,网页的PageRank值体现在两个方面:引用该网页其他网页个数和引用该页面的其他页面的重要程度 。
假定一个网页A被另一个网页B引用,网页B就将PageRank值分配给网页B所引用的网页,所以越多引用网页A则其PageRank值也就越高 。
推荐阅读
- 和平精英|张雨绮素颜教护肤!背后满墙名牌包包太抢镜,一个杯子价格近2万
- |背景调查,招聘选拔人才的关键环节,如何系统策划与高效实施?
- 月球的另一面有没有外星人 外星人藏在月球背面是真的吗
- 人类为什么探测月球 中国探测月球背面
- 外星人来自月球背面 宇航员在太空发现外星人
- 月球背面与月球正面相比 月球的正面和背面
- 蛇的抗毒血清是通用的吗
- 电脑显卡的背板只是为了好看?它的用处远没有你想的那么简单
- 蛇的抗毒血清是通用的吗 在制备蛇毒抗毒素血清时
- 纽扣电池cr2030和cr2032通用吗,纽扣电池cr2032和cr1620可以通用吗?
