延庆信息港
时尚
当前位置:首页 > 时尚

1T中都是和集合中页相关的页面

发布时间:2019-07-10 00:20:15 编辑:笔名

分析链接是常见的搜索引擎分析页结构的一种方式,一般是搜索引擎根据相关的链接分析算法,然后对与页相关的外链和内链进行详细的数据整理和分析,并且根据这些链接的特点,再对页进行一个评分和排序,当就用户搜索某个关键词的时候,搜索引擎就会对与该关键词相关主题的页中的这些链接进行一个合理分析,然后排序,就得到了排名的结构,在本文中,笔者要跟大腹泻喝党参葛茶家讨论的主题是HITS,而HITS算法是链接分析算法中比较有代表性的一种。

HITS算法在应用中,一般都是利用HUB页(页中很多链接,并且都是指向权威的页面,一般都是导航或者目录页)和Authority(就是被大量链接指向的页,也就是权威型的页)页面之间指向链接的互相加强关系来对页给予分值计算,也就是说该算法的实施过程中是将搜索引擎从互联上抓去到全部页分为HUB页面和Authority页面,在搜索引擎看来,好的Hub页应该是指向很多的权威型的页,而权威值高的页应该是拥有很多指向Hub页的链接,所以我们由此而得出了HITS算法的核心思想:

首先,我们知道HITS算法是基于主题查询的搜索引擎算法,所以当用户向搜索引擎提交主题查询时,搜索引擎根据用户的检索词进行关键词匹配查询,同时返回若干项与主题高度相关的页集合S,在这些相关性的页集合中,页之间会有大量和页相关的链接,所以此时搜索引擎算法HITS算法就根据页上链接的特点将页集合S进行拓展,即将集合页上的链接,页引用的链接,和被其他页面的引用的链接都加入到该集合中,形成一个新的集合T,同时我们对集合T的要求是:

1、 T中都是和集合中页相关的页面

2、 T中的集合页面都要于主题高度相关

3、 T中要包含大量的HUB页面和Authority页面

在了解了HITS算法的核心思想之后,我们需要了解的就是如何根据该算法所给出的思想进行计算页集合中的页的权重来对搜索结详述女性抑郁症表现果进行排序,那么下面笔者通过这个站的操作方式对HITS算法进行进一步的解剖:我们可以将拓展出来的页集合T看做一个集合矩阵,同时将中的所有HUB页看做为顶点集A,将集合中包含的所有权威型的页看做是顶点集B,其中A中的页到B中的页的超链接为边集E,形成一个二分有向图SG=(A,B,E)。对HUB集合A中的任一个顶点a,用h(a)表示页a的Hub值,对B中的顶点b,用a(b)表示页的Authority值。开始时h(a)=a(b)=1,对b执行I操作修改它的a(b),对a执行O操作修改它的h(a),然后规范化a(b),h(a),如此不断的重复计算注意人参人人皆宜下面的操作I,O,直到a(b),h(a)收敛。(证明此算法收敛可见 )

I 操作: (1) O操作:(2)

分析:从以上算法思想中我们可以探讨出很多问题,

1、 比如如果用户向搜索引擎提交查询主题之后,搜索引擎要想为用户提供的搜索结果时就必须对搜索结果进行拓展,而从简单的搜索结果进行丰富拓展时需要大量的时间去分析,延长了用户请求的响应时间,所以对搜索引擎来说不能在短的时间内为用户提供搜索结果就证明该算法是失败的、不科学的。

2、 一个页中包含了许多链接,比如导航链接、广告链接、以及程序自动生成的链接,而这些链接的存在势必会对搜索结果产生影响,在HITS算法中将搜索结果中出现的页链接都进行了分析,所以在搜索结果中可能会出现这些无效链接引用的页。

3、 HITS算法对页集合的拓展也会导致新的问题出现,因为是对搜索结果进行再次生成,所以在对集合进行扩展的时候不可避免的要增加很多页面,有时这些页面是和搜索结果中页有着些许的关系,只不过是被集合中的页引用了,所以一旦搜索结果中存在大量的这样页的话,那么通过HITS算法的来的结果就会使得我们基于主题的查询变宽泛了,也就是说我们可能得不到准确的搜索结果了。

4、 HITS算法是基于主题查询的,也就是说返回的结果是根据关键词完全匹配的,注重的是与主题高度相关的主社区,而对于那些有着不太相关的链接是很少能够顾及到的,所以很容易在搜索结果中导致主题漂移问题,然而这个问题该算法暂时也无法解决,这点事的不足。文章来自广州站建设,站建设流程:转载必须保留链接!

A5报名优惠:2013年GOMX全球络营销大会

安庆治疗性病专科哪家好
昌吉有哪些产前诊断科医院
白山男科医院哪家好
乐东心胸外科医院哪家好