谷歌如何从非结构化内容中识别和解释实体?
Posted: Wed Feb 12, 2025 5:32 am
正如上一篇文章所述,谷歌如何处理来自维基百科的知识图谱信息?如上所述,对于知识图谱等知识数据库来说,保持信息的完整性和准确性之间的平衡是一项艰巨的任务。完整性的必要前提是 Google 能够识别、解释和提取非结构化数据源中的信息。这篇文章中对此进行了更多介绍。
目录[隐藏]
1 Google 的语义理解之旅
2维基百科和维基数据等知识数据库的问题
3封闭式与开放式信息提取
3.1事实/信息封闭提取的示例流程
4尾部实体检测
4.1给书呆子的小费!
4.2给书呆子的小费!
5命名实体识别
5.1给书呆子的小贴士!
6事件提取
7机器学习作为处理非结构化数据的核心技术
8通过无监督机器学习将新实体分配给类别和类型
9 种确保最新性的方法
10知识库即知识图谱 2.0
10.1给书呆子的小费!
10.2给书呆子的小费!
11结论:谷歌在提取非结构化信息方面才刚刚起步
谷歌的语义理解之旅
从非结构化文档中提取有关对象或实体的语义信息的问题自 20 世纪 90 年代末以来一直困扰着 Google。例如,您可以找到 1999 年的一项 Google 专利,名为“ 从万维网等分散数据库中 护士数据库 提取模式和关系”(pdf)。这是谷歌有史以来首批有关语义问题的专利之一。
阅读更多内容,请阅读文章 《谷歌有多聪明?》。真正的语义理解还是仅仅是统计数据? 。
知识图谱早期的第一步是结构化和半结构化数据的提取。例如,谷歌已经非常擅长从维基百科或维基数据提取和处理信息。阅读更多内容,请参阅文章: 谷歌如何处理来自维基百科的知识图谱信息? 以及 您需要了解的有关实体类型、类别和属性的所有信息 。
但这仅仅只是一个开始,因为这种方法的局限性是显而易见的。
维基百科和维基数据等知识数据库的问题
由于 Wikidata 和 Wikipedia 仅捕获了所有现实世界实体的一小部分,因此对于 Google 来说,最困难的任务是从上述网站以外的其他网站提取有关实体和实体类型的信息。大多数网站和文档的结构都不同,通常没有统一的结构。因此,谷歌在进一步扩展知识图谱方面还有很大的任务要做。
通常会检查和准备来自手动维护的数据源(例如 Wikipedia 或 Wikidata)的结构化和半结构化信息,以便 Google 可以轻松提取它并将其添加到知识图谱中。但这些网站和数据库也并非完美无缺。
手动维护的数据库和半结构化网站(如维基百科)的问题在于缺乏数据的完整性、有效性和及时性。
目录[隐藏]
1 Google 的语义理解之旅
2维基百科和维基数据等知识数据库的问题
3封闭式与开放式信息提取
3.1事实/信息封闭提取的示例流程
4尾部实体检测
4.1给书呆子的小费!
4.2给书呆子的小费!
5命名实体识别
5.1给书呆子的小贴士!
6事件提取
7机器学习作为处理非结构化数据的核心技术
8通过无监督机器学习将新实体分配给类别和类型
9 种确保最新性的方法
10知识库即知识图谱 2.0
10.1给书呆子的小费!
10.2给书呆子的小费!
11结论:谷歌在提取非结构化信息方面才刚刚起步
谷歌的语义理解之旅
从非结构化文档中提取有关对象或实体的语义信息的问题自 20 世纪 90 年代末以来一直困扰着 Google。例如,您可以找到 1999 年的一项 Google 专利,名为“ 从万维网等分散数据库中 护士数据库 提取模式和关系”(pdf)。这是谷歌有史以来首批有关语义问题的专利之一。
阅读更多内容,请阅读文章 《谷歌有多聪明?》。真正的语义理解还是仅仅是统计数据? 。
知识图谱早期的第一步是结构化和半结构化数据的提取。例如,谷歌已经非常擅长从维基百科或维基数据提取和处理信息。阅读更多内容,请参阅文章: 谷歌如何处理来自维基百科的知识图谱信息? 以及 您需要了解的有关实体类型、类别和属性的所有信息 。
但这仅仅只是一个开始,因为这种方法的局限性是显而易见的。
维基百科和维基数据等知识数据库的问题
由于 Wikidata 和 Wikipedia 仅捕获了所有现实世界实体的一小部分,因此对于 Google 来说,最困难的任务是从上述网站以外的其他网站提取有关实体和实体类型的信息。大多数网站和文档的结构都不同,通常没有统一的结构。因此,谷歌在进一步扩展知识图谱方面还有很大的任务要做。
通常会检查和准备来自手动维护的数据源(例如 Wikipedia 或 Wikidata)的结构化和半结构化信息,以便 Google 可以轻松提取它并将其添加到知识图谱中。但这些网站和数据库也并非完美无缺。
手动维护的数据库和半结构化网站(如维基百科)的问题在于缺乏数据的完整性、有效性和及时性。