网站优化
搜索引擎优化网
SEO培训
首页 网站优化 搜索引擎 Google优化 网站运营 SEO教程 SEO培训 论坛  
- 新闻动态 - - 研究探讨 -
用户名 密码 验证码  
  您的位置: 网站优化->搜索引擎-> 搜索引擎算法研究

搜索引擎算法研究

[ 来源: www.seochat.org | 作者: 未知 | 阅读次数: 26198 | 我要投稿]  
 

为了符合贝叶斯统计模型的规范,要给2M+N个未知参数()指定先验分布,这些分布应该是一般化的,不提供信息的,不依赖于被观察数据的,对结果只能产生很小影响的。Allan Borodin等在中指定满足正太分布N(μ,),均值μ=0,标准方差δ=10,指定满足Exp1)分布,即x>=0P(>=x)P(>=x)Exp(-x)。

   接下来就是标准的贝叶斯方法处理和HITS中求矩阵特征根的运算。

2.5.1 简化的贝叶斯算法

   Allan Borodin同时提出了简化的上述贝叶斯算法,完全除去了参数,也就不再需要正太分布的参数μ,δ了。计算公式变为:P(i,j)=/(1+),Hub网页到Authority网页j没有链接时,P(i,j)=1/(1+)。

   Allan Borodin 指出简化的贝叶斯产生的效果与SALSA算法的结果非常类似。

 

.6 Reputation

   上面的所有算法,都是从查询项或者主题出发,经过算法处理,得到结果网页。多伦多大学计算机系Alberto Mendelzon, Davood Rafiei提出了一种反向的算法,输入为某个网页的URL地址,输出为一组主题,网页在这些主题上有声望(repution)[16]。比如输入,www.gamelan.com,可能的输出结果是“java”,具体的系统可以访问htpp://www.cs.toronto.edu/db/topic。

   给定一个网页p,计算在主题t上的声望,首先定义2个参数,渗透率和聚焦率,简单起见,网页p包含主题项t,就认为p在主题t上。

 

是指向p而且包含t的网页数目,是指向p的网页数目,是包含t的网页数目。结合非条件概率,引入是WEB上网页的数目。P在t上的声望计算如下:

   指定是既指向p有包含t的概率,即,显然有

   我们可以从搜索引擎(如Altavista)的结果得到, ,WEB上网页的总数估计值某些组织会经常公布,在计算中是个常量不影响RM的排序,RM最后如此计算:

   给定网页p和主题t,RM可以如上计算,但是多数的情况的只给定网页p,需要提取主题后计算。算法的目标是找到一组t,使得RM(p,t)有较大的值。TOPIC系统中是抽取指向p的网页中的锚文本的单词作为主题(上面已经讨论过锚文本能很好描述目标网页,精度很高),避免了下载所有指向p的网页,而且RM(p,t)的计算很简单,算法的效率较高。主题抽取时,还忽略了用于导航、重复的链接的文本,同时也过滤了停止字(stop word),如“a”,“the”,“for”,“in”等。

   Reputation算法也是基于随机漫游模型的(random walk),可以说是PageRank和SALSA算法的结合体。

 

.链接算法的分类及其评价

   链接分析算法可以用来提高搜索引擎的查询效果,可以发现WWW上的重要的社区,可以分析某个网站的拓扑结构,声望,分类等,可以用来实现文档的自动分类等。归根结底,能够帮助用户在WWW海量的信息里面准确找到需要的信息。这是一个正在迅速发展的研究领域。

   上面我们从历史的角度总结了链接分析算法的发展历程,较为详细的介绍了算法的基本思想和具体实现,对算法的存在的问题也做了讨论。这些算法有的处于研究阶段,有的已经在具体的系统实现了。这些算法大体可以分为3类,基于随机漫游模型的,比如PageRank,Repution算法,基于Hub和Authority相互加强模型的,如HITS及其变种,基于概率模型的,如SALSA,PHITS,基于贝叶斯模型的,如贝叶斯算法及其简化版本。所有的算法在实际应用中都结合传统的内容分析技术进行了优化。一些实际的系统实现了某些算法,并且获得了很好的效果,Google实现了PageRank算法,IBM Almaden Research Center 的Clever Project实现了ARC算法,多伦多大学计算机系实现了一个原型系统TOPIC,来计算指定网页有声望的主题。

   AT&T香农实验室的Brian Amento在指出,用权威性来评价网页的质量和人类专家评价的结果是一致的,并且各种链接分析算法的结果在大多数的情况下差别很小[15]。但是,Allan Borodin也指出没有一种算法是完美的,在某些查询下,结果可能很好,在另外的查询下,结果可能很差[11]。所以应该根据不同查询的情况,选择不同的合适的算法。

   基于链接分析的算法,提供了一种衡量网页质量的客观方法,独立于语言,独立于内容,不需人工干预就能自动发现WEB上重要的资源,挖掘出WEB上重要的社区,自动实现文档分类。但是也有一些共同的问题影响着算法的精度。

1.根集的质量。根集质量应该是很高的,否则,扩展后的网页集会增加很多无关的网页,产生主题漂移,主题泛化等一系列的问题,计算量也增加很多。算法再好,也无法在低质量网页集找出很多高质量的网页。

2.噪音链接。WEB上不是每个链接都包含了有用的信息,比如广告,站点导航,赞助商,用于友情交换的链接,对于链接分析不仅没有帮助,而且还影响结果。如何有效的去除这些无关链接,也是算法的一个关键点。

3.锚文本的利用。锚文本有很高的精度,对链接和目标网页的描述比较精确。上述算法在具体的实现中利用了锚文本来优化算法。如何准确充分的利用锚文本,对算法的精度影响很大。

4.查询的分类。每种算法都有自身的适用情况,对于不同的查询,应该采用不同的算法,以求获得最好的结果。因此,对于查询的分类也显得非常重要。

   当然,这些问题带有很大的主观性,比如,质量不能精确的定义,链接是否包含重要的信息也没有有效的方法能准确的判定,分析锚文本又涉及到语义问题,查询的分类也没有明确界限。如果算法要取得更好的效果,在这几个方面需要继续做深入的研究,相信在不久的将来会有更多的有趣和有用的成果出现。

 
共5页: 上一页 [1] [2] [3] [4] 5 下一页
上一篇:2006 Google SandBox效应   下一篇:友情链接搜索
  广告
  最新文章
  · 谷歌曾帮助Twitter抵御攻击(图)
· 谷歌测试新版搜索引擎Caffeine
· 巴茨:雅虎从来都不是搜索引擎
· 艾瑞:第二季中国搜索引擎市场规
· 必应搜索代表微软的未来吗
· 谷歌CEO:没想到谷歌会赚钱
· 微软必应7月美国搜索市场份额上
· 详讯:微软雅虎宣布达成搜索广告
  推荐文章
  · 详讯:微软雅虎宣布达成搜索广告
· 传雅虎正在测试新主页(图)
· 谷歌将允许使用他人品牌作为广告
· 百度薪酬调整疑变相裁员 上千员
· 搜索竞速:百度谷歌鹿死谁手
· 传雅虎拟在巴西推出Meme克隆Twit
· 百度联盟押宝3G:电信业是新增长
· 谷歌并购业务高管暗示有意收购Tw
  热门文章
  · 作弊手法一览
· 搜索引擎三大定律
· 搜索引擎蜘蛛程序
· 搜索引擎技术及趋势
· 搜索引擎基本工作原理
· 搜索引擎垃圾
· 搜索引擎分类
· 搜索引擎发展历史
  最新论坛贴子
  · 机械类企业网站交换链接
· 修改完TITLE,百度关键字排名上
· 如何选择IDC服务商托管租用服务
· 中国福利彩票友情连接!!!
· 中国福利彩票友情连接!!!
· 中国福利彩票友情连接!!!
· seo视频教程
· 怎样选择虚拟主机服务商(59互联
  最新评论    (查看所有评论)

 
  发表评论
  评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
 
 用户名: 密码: 注册
 
关于我们 - 联系我们 - 友情链接 - SEO培训 - 招贤令 - 网站优化方案 - 优化案例 - 常见问题 - 网站优化 -

Copyright © 2003-2008 搜索引擎优化网 版权所有 , All Rights Reserved

粤ICP备05000946号