网站优化
搜索引擎优化网
SEO培训
首页 网站优化 搜索引擎 Google优化 网站运营 SEO教程 SEO培训 联系我们  
- 新闻动态 - - 研究探讨 -
用户名 密码 验证码
  您的位置: 首页>搜索引擎> 搜索引擎技术及趋势

搜索引擎技术及趋势

[ 来源: 搜索引擎直通车 | 作者: 未知 ]
 

召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统(搜索引擎)的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统(搜索引擎)的查准率。对于一个检索系统来讲,召回率和精度不可能两全其美:召回率高时,精度低,精度高时,召回率低。所以常常用11种召回率下11种精度的平均值(即11点平均精度)来衡量一个检索系统的精度。对于搜索引擎系统来讲,因为没有一个搜索引擎系统能够搜集到所有的WEB网页,所以召回率很难计算。目前的搜索引擎系统都非常关心精度。

  影响一个搜索引擎系统的性能有很多因素,最主要的是信息检索模型,包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制

三、主要技术

 一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。

 1.搜索器

  搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。目前有两种搜集信息的策略:

 ● 从一个起始URL集合开始,顺着这些URL中的超链(Hyperlink),以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL,但常常是一些非常流行、包含很多链接的站点(如Yahoo!)。

 ● 将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索。

 搜索器搜集的信息类型多种多样,包括HTML、XML、Newsgroup文章、FTP文件、字处理文档、多媒体信息。

 搜索器的实现常常用分布式、并行计算技术,以提高信息发现和更新的速度。商业搜索引擎的信息发现可以达到每天几百万网页。
2.索引器

 索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。
  索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度(Link Popularity)等等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切分。
 在搜索引擎中,一般要给单索引项赋与一个权值,以表示该索引项对文档的区分度,同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短语索引项的提取方法有统计法、概率法和语言学法。

 
共3页: 上一页 [1] 2 [3] 下一页
上一篇:搜索引擎蜘蛛程序   下一篇:搜索引擎三大定律
  广告
  最新文章
  ·百度与疑问
  ·雅虎发布08年10大搜索关键词 布
  ·谷歌裁员约1万人受影响
  ·传雅虎谷歌已向司法部提交修改后
  ·谷歌提供扫描文件搜索服务
  ·谷歌G1手机曝安全漏洞可导向恶意
  ·谷歌称搜索广告投放没有下降
  ·Hitwise:谷歌9月份搜索份额同比

  推荐文章
  ·分析:Google让我们变得更愚蠢吗
·传谷歌金山秘密合作研发Office软
·谷歌网页索引数量突破1万亿
·调查称谷歌企业声誉在美国排名第
·谷歌街景服务被指为违反数据保护
·李开复披露谷歌中国未来12个月路
·盖茨称雅虎工程师价值400亿美元
·搜索引擎算法研究
  热门文章
  ·搜索引擎算法研究
·作弊手法一览
·搜索引擎三大定律
·搜索引擎蜘蛛程序
·搜索引擎基本工作原理
·搜索引擎垃圾
·搜索引擎分类
·搜索引擎发展历史
  最新评论    (查看所有评论)

 
  发表评论
  评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
 
 用户名: 密码: 注册
 
关于我们 - 联系我们 - 友情链接 - SEO培训 - 网站优化 - 网站优化方案 - 优化案例 - 常见问题 - 网站优化 -

Copyright © 2003-2008 搜索引擎优化网 版权所有 , All Rights Reserved

粤ICP备05000946号