根据搜索引擎的实现技术,大致可以分为5类:
- 网页级搜索引擎
- 垂直搜索引擎
- 元搜索引擎
- 目录搜索引擎
- 集成搜索引擎
实现的技术和难度依次递减,使用性依次降低,市场占有率也是依次递减,下面看看各自的特点:
网页级搜索引擎
它们都是通过从互联网上提取的各个网站的信
息(以网页文字为主)而建立的数据库,检索与用户查询条件匹配的相关记录,然后按一定
的排列顺序将结果返回给用户。网页级搜索引擎也是目前常规意义上的搜索引擎。
此类搜索引擎有:
Google, Yahoo, Bing, 百度,搜狗,360搜索等。
垂直搜索引擎
垂直搜索引擎与普通网页搜索引擎的最大区别是对网页信息进行了结构化抽取,
也就是
将网页的非结构化数据抽取成特定的结构化信息数据,
然后将这些数据存储到数据库,
进行
进一步的加工处理,如:去重、分类等,最后分词、索引,再以搜索的方式满足用户的需求。
可以这样说,
网页搜索是以网页为最小单位,
基于视觉的网页块分析是以网页块为最小单位,
而垂直搜索是以结构化数据为最小单位。
垂直搜索是针对某一个行业的专业搜索引擎,
是搜索引擎的细分和延伸。
它将网页库中
某类专门的信息进行一次整合,
定向分字段抽取出需要的数据进行处理,
然后再以某种形式
返回给用户。
各大搜索引擎都有自身的垂直搜索功能,比如 MP3 搜索、图片搜索、新闻搜索、Blog
搜索等。独立的垂直搜索网站也受到有相关兴趣的用户的青睐,比如旅游搜索引擎、商业搜
索引擎、比价搜索引擎等。
元搜索引擎
元搜索引擎并不直接抓取网页,而是抓取多个搜索引擎的索引数据库,并根据自己的
算法对抓取结果重新筛选排序。
元搜索引擎在接受用户查询请求时,
同时在其它多个引擎上进行搜索,
并将结果返回给
用户。
比较知名的元搜索引擎有
www.dogpile.com
www.vivisimo.com
www.bbmao.com
目录搜索引擎
录索引虽然有搜索功能,
但在严格意义上算不上是真正的搜索引擎,
仅仅是按目录分
类的网站链接列表,并提供站内搜索而已。用户完全可以不用进行关键词查询,仅靠分类目
录也可找到需要的信息。
Yahoo 和搜狐都提供分类目录功能,其它知名的目录还有 DMOZ(www.dmoz.org)
集成搜索引擎
成搜索算不上是搜索引擎,
只是运用了一定的网页技术,
把多个搜索引擎的搜索功能
整合在一个搜索页面,
并对各个搜索引擎的功能进行分类,
方便用户在多个搜索引擎的搜索
结果中进行比较和选择。部分集成搜索甚至没有对用户的搜索请求做出任何记录。所以,集
成搜索更像一个在线的、集合了多个搜索引擎入口的软件,而不是搜索引擎。
国内有很多集成搜索的网站,如优客搜索(www.yok.com)
。
版权所有,禁止转载. 如需转载,请先征得博主的同意,并且表明文章出处,否则按侵权处理.