搜索引擎基本原理

一 抓取
搜索引擎首先会派出一种被称作“蜘蛛”或者是“机器人”的软件,根据一定规则扫描
存在于互联网上的网站,
并沿着网页上的链接从一个网页到另一个网页,
从一个网站到另一
个网站。为保证采集的资料最新,它还会回访已抓取过的网页。
二 索引
由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在
URL、编码类型、页面内容包含的所有关键词、关键词位置… 更多... “搜索引擎基本原理”

搜索引擎分类

根据搜索引擎的实现技术,大致可以分为5类:

  1. 网页级搜索引擎
  2. 垂直搜索引擎
  3. 元搜索引擎
  4. 目录搜索引擎
  5. 集成搜索引擎

实现的技术和难度依次递减,使用性依次降低,市场占有率也是依次递减,下面看看各自的特点:

网页级搜索引擎

它们都是通过从互联网上提取的各个网站的信
息(以网页文字为主)而建立的数据库,检索与用户查询条件匹配的相关记录,然后按一定
的排列顺序将结果返回给用户。网页级搜索引擎也是目前常规意义上的搜索引擎。


此类搜… 更多... “搜索引擎分类”