这个防采集的方法是我今天在无奈之下想出来的,要开网站一看我晕不能访问,立马跑到服务器上一看,apache点N高的内存,后来在一急之下就想出了这种办法,呵呵,到底是什么方法呢,我把我防采集的过程给各位讲一下吧.
根据我分析一般这种大量采集都是现成的cms如dede ,新云,dz等,他们己经写好了方法只要你把规则放进去就行了,例如:取得文章列表页开始与结束位置,连接url的开始与结束字符,内容页面的开始与字符,就这样几句代码,就让你的服务器要命哦,根据我上面的分析我们就来写一些没有规则的可以说如果要采集成功,难度比以前要大,
首页对分页进行了处理,如我以前是这样的
你上面这样别人很容易就在设置获取分页列表时开始为
我定义page css有1,20个然后用rand(0,20)生成随机也就会
好了,其它链接也一个的办法,最后就一句话,增加采集的难度,这样你网站被采集的机会就少了.
好了最后申明一下本站原创文章转载请注明: www.111com.net/mon/mon.html