第七部分:网页级别(PageRank)
Google搜索引擎采用的核心软件称为 PageRank,这是由Google创始人开发出的一套用于网页评级的系统,是Google搜索排名算法中的一个组成部分,级别从1到10级,10级为满分,PR值越高说明该网页在搜索排名中的地位越重要,也就是说,在其他条件相同的情况下,PR值高的网站在Google搜索结果的排名中有优先权。网页级别由此成为Google所有网络搜索工具的基础。
网页级别概述
Google对网页级别的描述
“作为组织管理工具,网页级别利用了互联网独特的民主特性及其巨大的链接结构。实质上,当从网页 A 链接到网页 B 时,Google 就认为“网页 A 投了网页 B 一票”。Google 根据网页的得票数评定其重要性。然而,除了考虑网页得票数(即链接)的纯数量之外,Google 还要分析投票的网页。“重要”的网页所投出的票就会有更高的权重,并且有助于提高其它网页的“重要性”。
重要的、高质量的网页会获得较高的网页级别。Google 在排列其搜索结果时,都会考虑每个网页的级别。当然,如果不能满足您的查询要求,网页级别再高对您来说也毫无意义。因此,Google 将网页级别与完善的文本匹配技术结合在一起,为您找到最重要、最有用的网页。Google 所关注的远不只是关键词在网页上出现的次数,它还对该网页的内容(以及该网页所链接的内容)进行全面检查,从而确定该网页是否满足您的查询要求。”
PR值算法原理
总体上基于下面2个前提:
1、一个网页被多次引用,则它可能是很重要的;一个网页虽然没有被多次引用,但是被重要的网页引用,则它也可能是很重要的;一个网页的重要性被平均的传递到它所引用的网页。这种重要的网页称为权威(Authoritive)网页。
2、假定用户一开始随机的访问网页集合中的一个网页,然后跟随网页的链接向前浏览网页,不回退浏览,那么浏览下一个网页的概率就是被浏览网页的PageRank值。
影响 PR 值的因素
PR值体现为从0到10的11个数值,在Google的工具栏上以一条横向绿色柱状图显示,0级情况下呈白色。它是针对网页而不是网站,因此一个网站的首页和内页往往有着迥然不同的PR 值。由于Google市场拓展进程的原因,中文网页的PR值整体上低于英文网页。对中文网站来说,拥有3级PR是基础, 4级PR算达标,5级PR可谓良好,而6、7级PR就算相当优秀的网站。当然,由于PR最直接的影响因素是来自链接,因此这种评级并不代表内容的级别水准,网站内容质量对PR的影响是间接的、长期的。根据PR值的算法原理,可知影响一个网站(首页)