百度搜索引擎工作原理分析

作者:袖梨 2022-06-29

1、百度抓取

搜索引擎抓取程序:蜘蛛

搜索引擎为了可以自动抓取互联网上面数以万计的网页,必须有一个全自动的页面抓取程序。而这个程序我们一般称之为“蜘蛛”(也可以叫做“机器人”)。那么不同的搜索引擎的蜘蛛,叫法也就不同了。

百度的抓取程序,一般称为百度蜘蛛。

谷歌的抓取程序,一般称为谷歌机器人。

360的抓取程序,一般称为360蜘蛛。

其实,不管叫做蜘蛛,还是机器人,你只要知道这个指的是搜索引擎的抓取程序,就可以了。

蜘蛛的任务很简单,就是顺着链接不断的抓取互联网上,自己还没有收录过的网页和链接,然后将抓取到的网页信息和链接信息存储到自己的网页数据库中。而这些抓取到的网页,将有机会出现在最终的搜索结果中。

怎么让蜘蛛来抓取我们的网站呢?

通过上面对蜘蛛的解释,我们能够知道:要想自己的页面最终出现在搜索结果中,首先得让蜘蛛抓取到我们的网站。通过下面三种方法可以让蜘蛛来抓取我们的网站!

外部链接:我们可以在一些已经被搜索引擎收录的网站上面发布自己网站的链接,以此吸引蜘蛛,或者交换友情链接也是一个常用的方法。

提交链接:百度为站长们提供了链接提交的工具,通过这个工具,我们只需要通过这个工具提交给百度,那么百度就会派出蜘蛛来抓取我们网页了。

百度网址提交工具网址:http://zhanzhang.baidu.com/linksubmit/url

蜘蛛自己来抓取:如果你希望蜘蛛能够定期主动来自己的网站抓取网页,那么你就必须提供优质的网站内容。只有蜘蛛发现你的网站的内容质量很好,那么蜘蛛就会特别关照你的网站,定时会来你的网站看看是不是新的内容产生。

怎么知道蜘蛛来过我们网站?

通过下面2个方式可以知道蜘蛛是否来过我们的网站。

(1)百度抓取频次工具

该工具网址为:http://zhanzhang.baidu.com/pressure/index

(2)服务器IIS日志

如果你的服务器开启了IIS日志功能,那么也可以通过IIS日志文件看到蜘蛛来过的痕迹。通过IIS日志我们可以发现百度蜘蛛抓取我们那些页面。

影响蜘蛛抓取的因素

好了,我们知道了网站想要有排名,第一步就是必须能够被蜘蛛抓取到。那么那些因素有可能造成蜘蛛无法正常抓取我们网页呢,我们应该注意下面几个要点:

(1)网址不能过长:百度建议网址的长度不要超过256个字节(一个英文字母(不分大小写))占一个字节的空间,一个中文汉字占两个字节的空间)。

(2)网址中不要包含中文:百度对于中文网址的抓取效果都是比较差的,所以在网址内千万不要带有中文。

(3)服务器问题:如果你的服务器质量太差,总是打不开,那么也会影响蜘蛛的抓取效果。

(4)Robots.txt屏蔽:有的SEO人员由于疏忽。在Robots.txt文件里面屏蔽了想要被百度抓取的路径或者页面。这也会影响到百度对于我们网站的抓取效果。

(5)避免出现蜘蛛难以解析的字符,比如/abc/123456;;;;;;;%B9&CE%EDDS$GHWF%.html这种URL蜘蛛无法理解会放弃抓取。

(6)注意动态参数不要太多太复杂,目前百度对动态URL已经有了很好的处理,但是参数过多且复杂的url有可能被蜘蛛认为不重要而抛弃。这点尤为重要,一定注意。

2、百度分析/过滤

由于互联网上充斥着大量的垃圾页面和无内容页面,比如说复制来的、采集来的、主题内容不相关的无价值内容、不够丰富的内容,而这些页面不管对于搜索引擎,还是搜索用户来说,都是不需要的。

所以搜索搜索引擎为了避免这些垃圾页面占用自己宝贵的存储资源,所以会对蜘蛛抓取回来的内容进行过滤。

那么哪些因素会影响到过滤模块呢,有下面2点:

(1)识别

由于搜索引擎的蜘蛛目前最擅长的还是分析文字和链接,对于图片和视频的识别还是比较困难的。所以假如一个页面主要都是图片和视频话,那么搜索引擎很难识别出该页面的内容。而对于这种页面,搜索引擎有可能当作垃圾网站进行过滤掉。所以,我们在编辑网站内容的时候,应该多添加一些文字描述,这样才不容易被过滤模块过滤掉。

(2)内容质量

在可以识别内容的基础之上,搜索引擎还会将抓取到的网页内容,与已经存到数据库中的内容进行对比。如果搜索引擎发现你的页面内容质量与数据库中的内容大部分都是重复的,或者相比之下质量更差的话,那么这个页面也会被过滤掉。

另外,对于一些无法识别的:js、没有添加alt属性的图片、视频上下方没有加加文字说明的、flash、iframe框架结构、登录页面都会过滤掉。

3、百度收录

将通过了过滤模块“考核”的网页,进行分词、数据格式标准化,然后将其存储到索引数据库中程序模块,我们称之为收录模块。如果你的网站有幸通过收录模块,那么就有机会获得排名了。

怎么查询页面是否被收录呢?

直接在搜索框内输入网址即可查询是否被收录了,如下:

未收录的情况:

收录的情况:

查询整个网站收录量用到site指令:site+域名,如下:

收录了并不一定有排名,它是网页参与排名的前提条件并非充分条件。只有网站单个页面权重提升了整个网站权重才会更高更强大。搜索引擎对网站的信任度非常重要,是一个长期积累过程,最终可以达到一个秒收的程度。

4、百度排名

通过百度算法系统进行评分,来计算页面的综合得分情况进行排序,最后展现在搜索引擎的搜索结果页中。因此,我们必须研究搜索引擎排名机制和影响页面排名的因素有哪些。

首先来说下整个网站的排名:

1、完善基础优化

想要获得良好的排名,那么你的网页首先要做好基础优化,这包括网站定位、网站结构、网站布局、网站内容等几个部分。只有把这些基础部分完善优化好了,才算是及格了。

2、综合数据良好

在基础优化做好的基础上,假如你的百度统计后台数据表现良好,用户的忠诚度以及站外推广的效果显著的话,就会在及格线上加分。只要你的加分超过了所有的竞争对手,那么你的网站就可以排在所有对手的前面了。

接着就是内页的:

1、原创性

原创一直是百度比较喜欢的东西,而且随着2017年白帽SEO春天的带来,相信原创性更是会有着很大的作用。

2、相关性

在页面上加上适当的与此文章相关的锚文本链接,能有效的提升页面权重,在这里提到了一个锚文本,如果大家不知道是什么意思,请查看:http://www.111com.net/seo/62/127510.htm

3、用户体验性

用户之所以会使用百度去搜索东西,是因为他有疑问需要解答,我们通过分析用户的心理,分析他们为什么搜索这篇文章,而如果我们的页面能完美的解决用户的问题,就说明你的文章是一篇好的文章。

总结

本文为你讲解了搜索引擎的工作原理,那么掌握这一原理对于你学习SEO有什么帮助呢?

帮助就在于当你遇到一些SEO技术问题的时候,可以通过搜索引擎的工作原理找到原因。

比如你是一个新站,做了1个月发现只收录了首页。这个时候你可以知道那是因为收录模块对于新站有一个考核期,所以这属于正常现象。

有或者你发现自己网站的文章收录正常,但是没有排名,这个时候你就知道你的文章虽然被收录模块收录了,但是由于基础优化和综合数据不够良好,所以排序模块没有给出良好的排名。因此你可以知道接下来的工作应该是提升网站的内容质量。

所以,掌握搜索引擎的工作原理,对于我们学习SEO是至关重要的。

相关文章

精彩推荐