第一、首先分词:分词是一大特色,无论我们输入的是长句子或者是短语,搜索引擎都会把这些词语进行切分,将这些搜索的字符串切分成以词为基础的关键词组合。只要这样,才能更好的通过自己已经预处理后的数据库教程进行查询和比对,把所有符合这些词的也没列举返回给用户。这个分词和页面分词的原理有些类似。
第二、去停止词:我们在搜索时候带有很多的主观性,很多时候把口语话的一些词语都用在了搜索词上,但这次词往往对要搜索的内容没有实质性的帮助,但我们已经养成了输入这些词的习惯,所以搜索引擎必须要能去停止词,最大程度上保证搜索的准确率以及相关性。
第三、指令的处理:平时我们在搜索时会输入多个词语,其实默认的情况下,搜索引擎把多个默认的词语都按照“与”来进行词语。比如你搜索“减肥”“网站”时,搜索引擎会默认我们输入的“减肥网站”来进行处理,单独包含“减肥”或者“网站”的内容理论上将不会返回,但实际情况往往也会出现单独包含一个词语的网站。另外,还要处理各种高级搜索指令的词语,比如加号减号等。
第四、错误矫正:很多时候我们输入都会存在错误的问题,拼音本来谐音就比较多,输错也实属正常,但如果搜索引擎不进行纠错的话,就会返回很多我们不希望看到的结果。所以,有时候我们即使输入的全拼,搜索引擎也会根据这个来提示正确的中文。
第五、分类对待:不同词语一般是不同对待的,这是搜索引擎的一个特色功能。比如我们搜索一般性的关键词,返回的一般以网页居多,而当我们搜索一个明星的名字,则会出现很多新闻、视频、图片等综合的搜索结果。所以,搜索引擎要根据用户的需求去进行判断。这次判断都是在预处理阶段进行的。
好了,搜索引擎对于搜索词的处理基本是从这五个方面进行,在这里给大家做个总结:分词、去停止词、指令的处理、错误矫正、分类对待。虽然这个对于我们做网站没有直接的关系,但多了解一些基础知识相信会有间接的作用。网站,用户,搜索引擎本来三个就是一体的,这三个组成了整个互联网。很多道理也是想通的,知道了这些简单的知识,有可能会引发我们其它方面的一些思考和启示。