网页和一般文本的一个重要区别是在页面中包含相互链接,正是海量网页之间的相互链接才构成了互联网。一个网页的包含指向其他网页的网页链接称为出链,而对于被指向网页来说为入链。搜索引擎主要融合内容与链接两方面,通过一系列算法推演评分,来对搜索结果进行相应排名。上篇文章中介绍了网页和查询的相关性,下面简述搜索引擎链接分析相关算法盘点:计算网页重要性。

搜索引擎链接分析算法盘点:计算网页重要性

  1.PageRank算法

  PageRank链接分析算法中主要参考点:数量与质量。一个网页接收到其他网页指向的入链数量越多,那么该网页越重要;指向一个网页的入链质量不同,质量高的页面会通过链接向其他页面传递更高的权重。

  一开始,每个网页分配相同的PageRank值,在PageRank算法中,网页会将其当前的PageRank值平均分配到本页面包含的出链上,这样每个链接会得到对应的权值。最后每个页面将入链的权值相加就得到新的PageRank值。假设网页分配相同的PageRank值为1,该网页分别导出5条链接,那么对应5条出链的权值为0.2,得到该出链的网页权值为1.2。

  PageRank算法得到越多权值高且出链少的网页链接,网页重要性越高,不必考虑相关性。

  2.HITS算法

  在HITS算法中要引入两个定义:Hub页面和Authority页面。Authority页面是指与某个领域或者某个话题相关的高质量网页。Hub页面指的是包含了很多指向高质量Authority页面链接的网页,比如hao123首页这种导航站。

  一个好的Authority页面会被很多好的Hb页面指向;一个好的Hub页面会指向很多好的Authority页面。HITS算法可以在海量网页中查询到与用户搜索主题较高的高质量内容,特别是Authority页面。

  HITS算法强调相关性,不涉及入链数。SEO利用这一算法的常见作弊现象就是自己创作个好的Hub页面,其中一条Authority页面指向自己。还有就是在友链区域加上些质量较高的Authority页面链接,其中一条也导向自己,除外的Authority页面链接全部nofollow屏蔽掉。

  3.SALSA算法

  SALSA算法融合了PageRank算法与HITS算法的基本思想,SALSA划分为两个大的阶段:首先是确定计算对象集合的阶段结合HITS算法特征;第2个阶段是链接关系传播过程,采用PageRank链接分析算法计算权值。

  前一阶段查询用户搜索相关内容链接,保障相关性,后部分以节点入链数决定排序顺序。这一结合使之链接既要数量也要相关性,研究数据表明用户体验较佳。

  4.Hilltop算法

  Hilltop算法也融合了PageRank算法与HITS算法的基本思想,吸收了HITS算法根据用户查询获得高质量相关网页子集,也采纳PageRank算法的根据网页入链数和质量来计算网页重要性。

  Hilltop算法主要包含两个步骤:专家页面搜索及目标页排序。首先根据用户查询搜索出一批专家页面,专家页面的条件:1.页面至少包含k个出链,k可指定;2.k个出链指向的所有页面相互之间的关系都符合非从属组织页面要求。一个目标页面如果是满足用户查询的高质量搜果,其充分必要条件是该目标页面有高质量专家页面链接指向。

  目标页有点类似于Authority页面,但目标页想得到专家页分值还需满足这两点要求:1.至少需要两个专家页面有链接指向目标页,不能来自同一网站或相关网站;2.专家页面和所指向的目标页面也需要符合一定要求。

  Hilltop算法填缺了利用HITS算法作弊手法,可以用来当做网页反作弊的技术手段。链接再考虑相关性的同时计算着链接的数量与质量分值。

  在搜索引擎绝大部分链接分析算法都是建立在PageRank算法和HITS算法基础之上的,SALSA算法是目前效果最好的链接分析算法之一,网页重要性离不开相关性链接与入链数及其质量。