搜索引擎算法研究(三)-搜索引擎技术

作者：袖梨 2022-07-02

２.２.３　HITS的变种

HITS算法遇到的问题，大多是因为HITS是纯粹的基于链接分析的算法，没有考虑文本内容，继J. Kleinberg提出HITS算法以后，很多研究者对HITS进行了改进，提出了许多HITS的变种算法，主要有：

２.２.３.１　Monika R. Henzinger和Krishna Bharat对HITS的改进

对于上述提到的HITS遇到的第2个问题，Monika R. Henzinger和Krishna Bharat在^[7]中进行了改进。假定主机A上有k个网页指向主机B上的某个文档d，则A上的k个文档对B的Authority贡献值总共为1,每个文档贡献1/k，而不是HITS中的每个文档贡献1，总共贡献k。类似的，对于Hub值，假定主机A上某个文档t指向主机B上的m个文档，则B上m个文档对t的Hub值总共贡献1，每个文档贡献1/m。I，O操作改为如下

I 操作：

O操作：

调整后的算法有效的解决了问题2，称之为imp算法。

在这基础上，Monika R. Henzinger和Krishna Bharat还引入了传统信息检索的内容分析技术来解决4和5，实际上也同时解决了问题3。具体方法如下，提取根集S中的每个文档的前1000个词语，串连起来作为查询主题Q，文档Dj和主题Q的相似度按如下公式计算：

，，＝项i在查询Q中的出现次数，

＝项i在文档Dj中的出现次数，IDFi是WWW上包含项i的文档数目的估计值。