谷歌的这篇科学论文讨论了如何确定在线资源的可信度。除了链接分析之外,还提出了一种基于检查已发布信息准确性的新方法。
我们提出了一种依赖于内生信号的新方法,即来源提供的事实信息的正确性。虚假事实较少的来源被认为是值得信赖的。
为此,我们使用了数据挖掘方法,我在文章 《谷歌如何从非结构化内容中识别和解释实体?》中已经讨论过这些方法。以及 自然语言处理在数据挖掘、实体和搜索查询中的作用的 详细信息。
我们将计算出的信任度分数称为基于知识的信任 (KBT)。在合成数据上,我们表明我们的方法可以可靠地计算出来源的真实可信度水平。
当前基于链接和浏览器数据对网站使用行为的来源可信度的评估存在缺陷,因为不太受欢迎的来源会得到更差的评价,并被不公平地忽视,尽管它们提供了非常好的信息。
使用这种方法,可以根据“可信度分数”对来源进行评级,而不考虑受欢迎程度。经常提供不正确信息的网站会被降级。发布符合普遍共识信息的网站将获得奖励。这也降低了通过虚假新闻吸引注意力的网站在 Google 上获得知名度的可能性。
使用网络链接图中的距离对网页进行排名
该专利最新版本由谷歌于2017年签署,目前状态为有效。它描述了如何 投资者数据库 根据链接文档与所选种子网站的接近度来创建排名分数。种子页面本身是单独加权的。
在该实施例的变型中,种子页面集合中的种子页面 s i 与预定权重相关联,其中 0<w i ≤1。此外,种子页面 s i 与初始距离 d i 相关联,其中 d i =−log(w i )。
种子页面本身质量很高,而且来源高度可信。关于这些页面,可以在专利中读到以下内容:
在本发明的一个实施例中,种子 102是专门选择的高质量页面,其为其他非种子页面提供良好的网络连接。更具体地说,为了确保其他高质量页面能够从种子 102轻松到达,种子 102中的种子 需要可靠、多样化以涵盖广泛的公共兴趣领域,并且与其他页面连接良好(即具有大量的出站链接)。例如,Google Directory 和纽约时报都是具备此类属性的优良种子。通常假设这些种子也“更接近”网络上的其他高质量页面。此外,具有大量有用的出站链接的种子有助于识别其他有用和高质量的页面,从而充当网络上的“枢纽”。
根据专利,这些种子页面必须手动选择,并且数量应受到限制以防止操纵。可以使用以下标准确定种子页面和要排名的文档之间的链接长度:
链接的位置
链接的字体
源页面主题偏离程度
源页面的出站链接数
有趣的是,没有直接或间接链接到至少一个种子页面的页面根本不会被计入评分。
但请注意,并非页面集合中的所有页面都会通过此过程获得排名分数。例如,任何种子页面都无法访问的页面将不会被排名。