当前位置首页 > 百科> 正文

HillTop

2019-11-25 05:44:40 百科
HillTop

HillTop

HillTop ,是一项搜寻引擎结果排序的专利,是Google的一个工程师Bharat在2001年获得的专利。Google的排序规则经常在变化,但变化最大的一次也就是基于HillTop算法进行了最佳化。

基本介绍

  • 外文名:HillTop
  • 类别:搜寻引擎结果排序的专利
  • 获得专利者:Bharat
  • 获得专利时间:2001年

算法

其实HillTop算法的指导思想和PageRank的是一致的,都是通过网页被连结的数量和质量来确定搜寻结果的排序权重。但HillTop认为只计算来自具有相同主题的相关文档连结对于搜寻者的价值会更大:即主题相关网页之间的连结对于权重计算的贡献比主题不相关的连结价值要更高。如果网站是介绍“服装”的,有10个连结都是从“服装”相关的网站连结过来,那这10个连结比另外10个从“电器”相关网站连结过来的贡献要大。。在1999与2000年,当这个算法被Bharat与其他Google开发人员开发出来的时候,Bharat称这种对主题有影响的文档为“专家”文档,从这些专家文档页面到目标文档的连结决定了被连结网页“权重得分”的主要部分。
与PageRank结合HillTop算法确定网页与搜寻关键字的匹配程度的基本排序过程取代了过分依靠PageRank的值去寻找那些权威页面的方法。这对于两个具有同样主题而且PR相近的网页排序过程中, HillTop算法就显得非常的重要了。HillTop同时也避免了许多想通过增加许多无效连结来提高网页PageRank值的作弊方法。
定义相关网站
Google最早利用HillTop算法去定义相关网站:一个网站与另一个网站的相关性,实际上,HillTop算法在Google中也作为一个识别跨站点的连结交换干扰(spam)与识别相似连结的技术。HillTop算法要求:如果有两个以上相关主题的网站连结到你的网站,那幺你的网站在搜寻结果中出现的机会会更大,如果HillTop算法不查找到最少两个相关性的网站,那幺搜寻返回的结果的机会绝对是0。
HillTop算法实际上是拒绝了部分通过随意交换连结的方法来扰乱Google的排名规则而得到较好排名的做法,而在HillTop的论文中也提到很多关于识别“网站连结交换联盟”的设计:如根据IPv4地址的头3段,根据域名的别名推测:1
PR值对于搜寻关键字的匹配度作用不大:因为在很多包含相应关键字的非相关主题的网站具有很高的PR值。这就是Google在HillTop算法中儘量避免的东西:应该尽其所能去列出与搜寻关键字相关的结果。
总得看来,从过去到今天,很多搜寻引擎停止了那种只使用一种有价值的算法去决定排名的做法。如:meta keyword标籤等。这只是一个开始,Google在第一步已经完全忽略html header中的meta标籤了。与不可见的meta标籤相比,一个网站的可视部分使用干扰技术较在meta使用的要少,因为可视部分毕竟还要面对大部分的实际的访问者。

算法难点

基于“专家”文档的HillTop算法最大的难点是第一次“专家文档”的筛选,从目前的观察来看:Google显然首先给了教育(.edu),政府(.gov)和非盈利组织(.org)站点很高的优先权。在运行时:Google会在庞大的记忆体里储存搜寻频率比较高的关键字的索引,以备搜寻者在短期内继续用同样的关键字短语等进行搜寻。这些高频关键字还有另外一种作用,在“佛罗里达”更新之前很多人已经注意到的了:含有那些突增的搜寻关键字的网站会得到较快的更新频率。如关于:\"SARS",每天的搜寻次数数以百万计:Google就会优先对与这个主题有关的网站进行更新。
回头看一下以前每个月的“Google Dance”,也能得出以下的结论:Google也明显地为一个关键字给予一个随机的“权重”,动态的根据关键字查询统计发现这些热门关键字,然后基于HillTop算法面向主题地找到这些含有热门关键字的网页,让这些网页作为相应关键字的“专家”文档,针对这些索引入口保持比较高的更新频率:这点显然对于应对突发事件非常有效。而那些含有查询频率比较低的关键字所对应的网页可能要1月才更新一次。简单的说就是:Google会根据主题的热门程度动态调整相应网站的索引的强度。而Google中文用户在总体用户中的比例与Google索引的中文网页在索引的总体网页中的比例,从某种程度上说,也是有一定关係的。

运行方式

Google所拥有的伺服器体系架构就是网路上分布的一万台奔腾级伺服器。而一旦了解了Hilltop算法后,我们很难相信这样的奔腾伺服器能够具备如此的处理能力:试想一下,首先要从成千上万的主题性档案中找到“专家档案”,然后计算目标网页自这些专家档案的连结的得分,然后再将数值返回 Google算法的其它排名系统,并做进一步处理—而所有这些要在大约0.07秒内--这个让Google举世闻名的搜寻速度内完成。确实使人难以置信。

运行频率

我们认为,要保证Google一贯的“闪电般”搜寻速度,Google会对搜寻频率较高(热门)的查询词(即所谓的“商业词”黑名单)定期运行批处理,并将结果存储起来供日后使用。Google的资料库拥有数目庞大的高查询频率的查询词,收集自实地搜寻和其AdWords自助广告系统中所使用的关键字。Google很可能对关键字搜寻次数设定了上限值,凡搜寻频率高于此阈值的查询词都将被纳入Hilltop系统,然后Hilltop系统再对收集的所有高查询频率关键字定期运行批处理,可能一个月一次。增量级的稍小规模的批处理可能会频繁一些。同时,每个月将对Hilltop系统运行批处理后的结果对Google的万台伺服器的资料库进行同步更新,但稍小规模的批处理的资料库更新会更加频繁一些。
对于那些用户查询频率不算高,因而无此“荣幸”被纳入Hilltop算法的查询词语,Google仍将使用原来的算法并显示原来的排名结果。因而对于那些高度明确或专业化的关键字,由于它们被排除在新算法的範围之内,因而有望保持原来的排名。

投入使用

Google早在2003年2月就获得了该专利,但在实际投入使用前,需要首先保证新算法和Google当时所使用的页面等级和页面相关性系统的完全兼容性,所以需要对其兼容性做大量测试,然后再评估算法整合后所提供的结果,再做精工调整,然后是进一步的繁複测试…我想所有这些都需要大量时间。

在套用中不足

专家页面的搜寻和确定对算法起关键作用,专家页面的质量决定了算法的準确性;而专家页面的质量和公平性在一定程度上难以保证。 Hiltop忽略了大多数非专家页面的影响。
在Hilltop的原型系统中,专家页面只占到整个页面的1.79%,不能全面反映民意。
Hilltop算法在无法得到足够的专家页面子集时(少于两个专家页面),返回为空,即Hilltop适合于对查询排序进行求精,而不能覆盖。这意味着Hilltop可以与某个页面排序算法结合,提高精度,而不适合作为一个独立的页面排序算法。
Hilltop中根据查询主题从专家页面集合中选取与主题相关的子集也是线上运行的,这与前面提到的HITS算法一样会影响查询回响时间。随着专家页面集合的增大,算法的可伸缩性存在不足之处。

商务俱乐部

简介
奇川商务俱乐部(英文名:Hilltop Club)是奇川创意生态圈旗下的重要品牌之一,位于广州珠江边,比邻广州塔,羊城发展新貌尽收眼底,拥有广州最美的空中花园。
服务定位
Hilltop Club只为“HILLTOP大客户俱乐部联盟”成员提供订单式服务,俱乐部不对公众开放。
两大核心服务内容
Hilltop商务会所,提供高端商务接待定製与主题活动定製服务:
1. 商务接待定製:360度一览无余临江景致,近千平米优美空中花园,独一无二日式空中铁板烧,并可根据特定接待需要,提供食材、酒水、接待形式、空间氛围、商务礼品等全方位专属定製。
2. 主题活动定製:空间布局灵活百变,室内室外随意变换,雅座区、铁板烧区、吧檯区、水景区等各具韵味。同时,以奇川公关精英团队作为主题活动的有力支撑,为联盟成员提供从创意到执行一系列的专业服务定製。
品牌特色
Hilltop 以独有的品牌特色,深受客户欢迎,成功打造出专属的品牌标籤:
1. Hilltop 花艺:英国花艺师钟伟雄倾情加盟,提供宴会、展会、主题活动等商务花艺服务,婚礼、生日Party 等个人花艺服务。
2. Hilltop 艺术:知名艺术家魏琪敏鼎力加盟,打造独特艺术空间,从艺术品赏鑒、艺术展到艺术沙龙,让品牌与艺术对话,诠释全新的艺术趣味。
3. Hilltop 影像:加拿大影像专家陈戈倾力合作,用影像呈现文化、艺术、商业三者的交融与碰撞,以新锐、时尚视角阐释品牌内涵、释放品牌魅力。
4. Hilltop=文化+艺术+商业+时尚+个性+……:Hilltop 礼品、Hilltop杂誌、Hilltop旅游等项目现正逐步推进,将为客户提供更多Hilltop 时尚文化的消费之选。
服务定位
Hilltop Club只为“HILLTOP大客户俱乐部联盟”成员提供订单式服务,俱乐部不对公众开放。
声明:此文信息来源于网络,登载此文只为提供信息参考,并不用于任何商业目的。如有侵权,请及时联系我们:baisebaisebaise@yeah.net