参考:Google的技术剖析:
摘要:
Google太强大了。搜索引擎不再是去“反映”一个站点的受欢迎程度,而是“决定”了站点的受欢迎程度。这是Daniel Brandt的说法。他是公共信息研究所的所长,一位激进分子,也是公众利益的捍卫者。
那些想了解Google运作及其潜在危险的人应该去他的站www.googlewatch.org 看看。
危险?凭借其受专利保护的PageRank算法,Google迅速脱颖而出,成为Web上占统治地位的搜索引擎。Google以一种打压竞争的方式带来了准确到位的Web搜索。其搜索主页和相关页面的能力是无可比拟的,有时完全是不可思议的。Google的相关性排序很大一部分是基于到被查询页面的回归链接。链接越多,页面就越可能令你感兴趣。
Google也借助关键字,但不仅仅是在那些多元标识符中的。它实际上是在Web页面内查找,看这个词在哪里被使用了,这样你就无法拿老技术哄骗搜索引擎。那种老技术是指把一些挑衅性的条件一遍遍地加载,一些站点的背景上甚至充满了白底白字的搜索引擎的诱饵词,而你不能看见它们。新方法就很好地摆脱了这些做法。
然而,对链接的依赖使Google受到其它的哄骗。作为纵横交错的站点网络一部分的某个网页在Google上的排名会比同样受欢迎但链接较少的页面靠前。Google极力反对那些试图染指其关联性得分的人,但它并未用文件证明其采取了何种安全措施。已知的一项服务是手工减少站点的得分,如果他们滥用其排名算法的话。
Google的难题在于:大的站点往往排名靠前,因为它们的链接十分广泛,而排名靠后的新站点在页面上是如此靠下以至于它们常被忽视。
Brandt对隐私问题也很关注。虽然我们尚未得知有滥用的事例,但Google记录了你的IP地址、搜索条件以及你从返回的列表中点击了哪些站点。它还把一个不会过期的cookie放入你的系统中。我不知道这是为什么。Google把你敲入的搜索条件保存在搜索页面URL中,从而允许使你把搜索转发给别人。但你的浏览器也因此把搜索存入到其历史记录中,这会是令人难堪的或容易犯罪的――取决于你要搜索什么。
Brandt对Google处理Web日志记载的方式尤其感到愤慨。日志记载器是专门负责记载日志的和日志保存者。只有它们公开地、在线上做这项工作,且通常都与其它日志有交叉链接。它们使用的软件能在它们每次张贴时自动生成新的XML目录,这样读者就很容易发现什么是最新的。在链接与容易阅读的目录之间,日志记载器对页面排名有很大的影响。页面的分数与其获得的实际的命中率偏差很大,而把一些潜在的重要内容放进结果首页上面的空缺中。A列表日志记载器(Brandt这样称呼他们)在处理页面方面有过高的地位。
Google需要关注这个问题。解决途径也许是为日志制做独立于Web页面的索引或使语法标准化来抑制(或选择)日志结果。Google的问题在于:大的站点往往排名靠前,因为它们的链接十分广泛,而排名靠后的新站点在页面上是如此靠下以至于它们常被忽视。