“通过训练模型,你会给它奖励,让它尝试写出每一条事实都可以追溯到来源的东西,”几年前帮助开发RAG 概念的Cohere人工智能建模负责人 Patrick Lewis 说道。如果你教会模型有效地对提供的数据进行分类,并在每次输出中使用引文,那么人工智能工具就不太可能犯下严重错误。
不过,RAG 究竟能减少多少 AI 幻觉,这是研究人员和开发人员争论的焦点。Lewis 在与我们的对话中谨慎用词,将 RAG 输出描述为“低幻觉”,而不是“无幻觉”。这个过程绝对不是某种灵丹妙药,可以消除 AI 犯下的所有错误。
,很明显 RAG 降低幻觉的程度取决于两个核心因素:整体 RAG 实施的质量,以及如何定义 AI 幻觉,这有时是一个模糊的术语,没有明确的定义。
首先,并非所有 RAG 都具有相同的水平。自定义数据库中内容的准确性对于可靠的输出至关重要,但这不是唯一的变量。“这不仅仅是内容本身的质量,”汤森路透全球人工智能主管 Joel Hron 表示。“这是搜索的质量,以及 玻利维亚电报号码 根据问题检索正确内容的质量。”掌握流程中的每个步骤都至关重要,因为一个错误就可能让模型完全失败。
斯坦福大学教授、以人为本人工智能研究所高级研究员 Daniel Ho 表示:“任何尝试过在搜索引擎中使用自然语言搜索的律师都会发现,语义相似性往往会导致你找到完全不相关的材料。” Ho对依赖 RAG 的人工智能法律工具的研究发现,输出的错误率高于建立模型的公司。
这引出了讨论中最棘手的问题:如何在 RAG 实施中定义幻觉?只有当聊天机器人生成无引用的输出并编造信息时才会出现幻觉吗?当工具可能忽略相关数据或误解引用的某些方面时,是否也会出现幻觉?