我比较感兴趣的是,在这篇专利申请中已经提到了词干技术,而且提到了不同文字文件的相关性。
而Google的PR专利显然是专注在已经应用了超链分析之后还不能解决的问题。在Google的专利申请中,明确提到即使在考虑了指向文件的链接及链接锚文字之后,搜索引擎还有重要问题需要解决,那就是来自不同文件的链接有不同的权重值。
你不能指望来自白宫网站的链接和非洲某小镇上一个学生的个人网站上的一个链接,投票值相同。而Google PageRank就是衡量网页重要性的一个方法。指向一个网页的链接越多,而这些链接本身的权重越高,那么这个被指向的网页的重要性及PageRank就越高。
Google的专利申请当中给出了具体怎样计算这一重要性指标,他们取名为网页级别。网页级别的计算需要进行多个循环的替代计算,才能得到近似于最终结果的PR值。
Google PR是与搜索词无关的,或者说与文件相关性无关的。它只描述某一个文件的重要性或地位。
就目前所有搜索引擎的表现来看,可以肯定这两个技术都已经被应用在排名算法中了,虽然可能名字不一样。尤其明显的是,虽然Google一直以PR为旗号,很少介绍它们的其他技术。但近一两年来, Google算法中对链接分析,锚文字分析,词干技术的重视越来越多。
这里做的分析完全是针对两篇专利申请所透露的技术问题,对谁先谁后,谁受谁启发等等,无意评论。