这个防采集的方法是我今天在无奈之下想出来的,要开网站一看我晕不能访问,立马跑到服务器上一看,apache点N高的内存,后来在一急之下就想出了这种办法,呵呵,到底是什么方法呢,我把我防采集的过程给各位讲一下吧.
根据我分析一般这种大量采集都是现成的cms如dede ,新云,dz等,他们己经写好了方法只要你把规则放进去就行了,例如:取得文章列表页开始与结束位置,连接url的开始与结束字符,内容页面的开始与字符,就这样几句代码,就让你的服务器要命哦,根据我上面的分析我们就来写一些没有规则的可以说如果要采集成功,难度比以前要大,
首页对分页进行了处理,如我以前是这样的
你上面这样别人很容易就在设置获取分页列表时开始为
好了,其它链接也一个的办法,最后就一句话,增加采集的难度,这样你网站被采集的机会就少了.
好了最后申明一下本站原创文章转载请注明:
疯狂医院达什医生中文版(Crazy Hospital)
疯狂医院达什医生最新版是一款医院模拟经营类游戏,逼真的场景画
宝宝庄园官方版
宝宝庄园官方版是一款超级经典好玩的模拟经营类型的手游,这个游
桃源记官方正版
桃源记是一款休闲娱乐类的水墨手绘风格打造的模拟经营手游。玩家
长途巴士模拟器手机版
长途巴士模拟器汉化版是一款十分比真好玩的大巴车模拟驾驶运营类
房东模拟器最新版2024
房东模拟器中文版是一个超级有趣的模拟经营类型的手游,这个游戏