2.2.3 HITS的变种
HITS算法遇到的问题,大多是因为HITS是纯粹的基于链接分析的算法,没有考虑文本内容,继J. Kleinberg提出HITS算法以后,很多研究者对HITS进行了改进,提出了许多HITS的变种算法,主要有:
2.2.3.1 Monika R. Henzinger和Krishna Bharat对HITS的改进
对于上述提到的HITS遇到的第2个问题,Monika R. Henzinger和Krishna Bharat在[7]中进行了改进。假定主机A上有k个网页指向主机B上的某个文档d,则A上的k个文档对B的Authority贡献值总共为1,每个文档贡献1/k,而不是HITS中的每个文档贡献1,总共贡献k。类似的,对于Hub值,假定主机A上某个文档t指向主机B上的m个文档,则B上m个文档对t的Hub值总共贡献1,每个文档贡献1/m。I,O操作改为如下
I 操作:
O操作:
调整后的算法有效的解决了问题2,称之为imp算法。
在这基础上,Monika R. Henzinger和Krishna Bharat还引入了传统信息检索的内容分析技术来解决4和5,实际上也同时解决了问题3。具体方法如下,提取根集S中的每个文档的前1000个词语,串连起来作为查询主题Q,文档Dj和主题Q的相似度按如下公式计算:
,
,
=项i在查询Q中的出现次数,
=项i在文档Dj中的出现次数,IDFi是WWW上包含项i的文档数目的估计值。
分析师Michaël van de Poppe预测:比特币价格下周将创历史新高
BlackRock的IBIT在创纪录的时间内达到700亿美元AUM,超越IVV
Pi Network在2025年Pi2Day活动上推出Pi应用工作室及质押功能
比特币:战略纳入标普500指数将如何推动BTC进一步上涨
以下是柴犬币如何削减13.1亿枚SHIB供应量的详细说明
Web3 AI预售数日内即筹集850万美元资金!BCH与HBAR价格走势显露不确定性