1、如何让首页保持更新
之前有看到牛人采用程序,使首页每次刷新都会出现新的内容,这一招非常迎合蜘蛛的口味,蜘蛛每次来的时候发现页面都是新的,于是不停不停的抓取,快照想不新都难。不过一般来说,大多数网站显然做不到这一点。有些网站首页采用调用论坛或者博客的形式,来不断使首页保持最新。但不幸的是,由于一些人不是很了解这么做的目的,采用了js或者iframe调用的形式,这么做的结果,不仅无法使蜘蛛认为你的网页发生更新,而且js和iframe调用的内容也非常不利于抓取。基本上在做无用功。请记住,无论你使用什么程序,一定要确保浏览器执行的时候是具体的内容和链接。
明白了监控区域这个概念之后,我们可以想象:在首页上如果有很多栏目列表,那么倘若我们长时间只更新一个栏目,这样做的结果会让蜘蛛认为其他列表部分是不会变化的,也就是非监控区域。这样某天当你不更新这个栏目,而更新其他栏目时,就可能出现滞后的情况,以至于蜘蛛短期内并不认为你的网页发生变化,直到完整的核对之后。这样就可能造成快照停滞的情况。请仔细理解这段话。
基于这一点,我们在更新内容的时候,尽可能保持整个网页各个区域都在均衡的变化,也就是在首页上出现的每个栏目都适当的更新内容,这样的好处是只要有一点点更新,蜘蛛都能及时发现,也就是说,我们要让网页上尽可能多的区域都成为蜘蛛的监控区域。那么只要我们网页有一点点的变化,都会让蜘蛛最快的时间内发现并进行更新。这样一般能解决快照最新的问题。
2、栏目列表页
事实上栏目列表页的快照较慢,让很多人无奈。倘若栏目列表页仅仅是列表在逐渐的刷新,的确很难让快照及时。针对它的思路是,尽可能扩充区域,除了正常的内容列表之外,右边放置大量的最新内容列表、热门点击列表、随机内容列表等等,有人认为这些板块一方面是为了尽可能让浏览者点击内容,从而有利于用户体验,同时有利于增加内链。事实上不仅仅如此,它还有利于扩充蜘蛛的监控区域,最大化保持页面的更新,让蜘蛛返回更多的200状态码。
3.内容页
内容页相对来说,监控区域更加稳定,就是内容展示部分。基本上更新的内容一下子就可以监控出来。所以网站里内容页是最容易判断是否更新的,而且有的页面是新页面,蜘蛛在索引库中完全没有记录,这样的页面几乎无须判断都可以判定为新页面,会返回200状态码。