一:图片目录的屏蔽
图片是构成网站组成的主要元素,然而主题模板中类似的图片在搜索引擎中铺天盖地,搜索引擎一遍遍的索引下去还会进行收录吗?即使收录了,所带的效果也是微乎其微的。一个不错的网站,每天各式各样的蜘蛛加起来来访不下几千次,无疑是浪费了大量的带宽。一般我们常屏蔽的目录为“images、images”。
二:缓存目录的屏蔽
很多程序都具有缓存目录,拿z-blog这个程序来举例子,它的缓存目录为“CACHE”,其中会有着不少已经生成HTML的缓存文件。如果蜘蛛继续进行索引的话,无疑是造成了重复内容的索引,这对网站是有害无益的。看到不少使用Z-blog的朋友都没有进行设置,可能是没有引起足够的重视吧。当然,其他程序还有这各自不同的缓存目录,针对性的进行屏蔽才最为适宜。
三:模板目录的屏蔽
对于程序的模板,大多站长都选择了直接套用而非独立模板。模板的高度重复性也成为了一个搜索引擎中信息的冗余,因此利用Robots.txt来进行模板的屏蔽也是有益无害的。且模板文件常常与生成文件高度相似,同样易造成雷同内容的出现。
四:CSS目录的屏蔽
CSS目录,搜索引擎抓取无用,所以我们在设置Robots.txt文件中将其进行屏蔽,以提高搜索引擎的索引质量。为搜索引擎提供一个简洁明了的索引环境更易提升网站友好性。
五:部分程序的RSS页
此条只针对存在RSS页的程序来讲,一般博客中比较常见。此页面可以说是一个高度重复的页面,完全有必要进行屏蔽,以增强网站在搜索引擎中的友好性。
六:屏蔽双页面的内容
一个可以生成静态页面的网站,一般来说动态页面也是可以访问的。如:“http://www.111com.net/n86 与www.xxxxx/asp教程?id=1”,两者若被搜索引擎完全索引,无疑是访问到了完全一致的内容,对搜索引擎友好性来说是有害无益的。而我们屏蔽的往往都是后者,因为前者页面为静态,更易被搜索引擎索引收录。
七:涉及程序安全页
在起始位置我们交代了屏蔽ADMIN、DATA目录,防止安全目录与数据库教程泄露。另外数据库目录、网站日志目录、备份目录都是需要进行屏蔽的,都是可以有效减少“泄密”现象的发生。
八:屏蔽文件形式
一些站长总是喜欢将网站备份后方到网站下载后忘记删除,或者根本不做下载,直接保留到服务器。但是大家都知道,网站发展壮大必定受到一些人的窥视,网站一次次的被尝试下在数据库、备份文件,稍微有点名次的网站都会受到类似的攻击。利用robots.txt屏蔽类似“rar、zip”等类似的文件。实质上,这样的屏蔽方式更有益于“第七点”,但是做到的仍然只是局部。