OpenAI 工程師關於AI為什麼產生幻覺的最新論文

在 OpenAI，我们正努力让 AI 系统变得更加有用和可靠。尽管语言模型的能力不断增强，但有一个挑战仍然难以彻底解决：幻觉（hallucinations）。我们指的是模型自信地生成不正确答案的情况。我们新的研究论文指出，语言模型产生幻觉的原因在于，标准的训练和评估程序奖励“猜测”，而非“承认不确定性”。

ChatGPT 也会产生幻觉。GPT-5 的幻觉现象已显著减少，特别是在推理方面，但仍然存在。对于所有大型语言模型来说，幻觉依然是一个根本性的挑战，但我们正在努力进一步减少它们。

什么是幻觉？

幻觉是指语言模型生成的看似合理但错误的陈述。即使是针对看似简单的问题，它们也会以令人惊讶的方式出现。例如，当我们询问一个被广泛使用的聊天机器人关于 Adam Tauman Kalai（本文作者之一）的博士论文题目时，它自信地给出了三个不同的答案——但没有一个是正确的。当我们询问他的生日时，它同样给出了三个不同的日期，也都是错误的。

为应试而教

幻觉之所以持续存在，部分原因是当前的评估方法设置了错误的激励机制。虽然评估本身不会直接导致幻觉，但大多数评估衡量模型性能的方式鼓励猜测，而非坦诚地承认不确定性。

可以把它想象成一个多选题测试。如果你不知道答案但进行盲猜，你可能会侥幸猜对。而留空则必然得零分。同理，当模型仅根据准确率（accuracy）（即回答正确问题的百分比）进行评分时，它们被鼓励去猜测，而不是说“我不知道”。

再举个例子，假设语言模型被问及某人的生日，但它并不知道。如果它猜测“9月10日”，它有1/365的几率猜对。而如果它说“我不知道”，则必然得零分。在数千个测试问题中，猜测的模型在排行榜上的表现最终会比一个承认不确定性的谨慎模型更好看。

对于有单一“正确答案”的问题，我们可以将响应分为三类：准确回答（accurate responses）、错误（errors）和弃权（abstentions）（即模型不进行猜测）。弃权是谦逊的一部分，而谦逊是 OpenAI 的核心价值观之一。大多数排行榜都以准确率为首要指标对模型进行排名，但错误比弃权更糟。我们的《模型规范》中指出，宁可表示不确定性或要求澄清，也不要提供自信但可能不正确的信息。

一个具体的例子是来自 GPT-5 系统卡片的 SimpleQA 评估。

| Metric | gpt-5-thinking-mini | OpenAI o4-mini | | :--- | :--- | :--- | | 弃权率（未给出具体答案） | 52% | 1% | | 准确率（正确答案，越高越好） | 22% | 24% | | 错误率（错误答案，越低越好） | 26% | 75% | | 总计 | 100% | 100% |

在准确率方面，较旧的 OpenAI o4-mini 模型表现略好。然而，它的错误率（即幻觉率）则高得多。当不确定时进行策略性猜测会提高准确率，但也会增加错误和幻觉。

在对数十个评估结果进行平均时，大多数基准测试会突出准确率指标，但这隐含了对错之间的虚假二分法。在 SimpleQA 这类简单的评估中，有些模型可以达到接近 100% 的准确率，从而消除了幻觉。然而，在更具挑战性的评估和实际使用中，准确率会低于 100%，因为有些问题的答案因多种原因而无法确定，例如信息不可用、小型模型推理能力有限或需要澄清的歧义等。

尽管如此，仅关注准确率的排行榜主导着榜单（leaderboards）和模型卡片（model cards），激励开发者构建会猜测而不是退缩的模型。这就是为什么即使模型变得更高级，它们仍然会产生幻觉，自信地给出错误答案而不是承认不确定性。

一种更好的评估方式

有一个直接的解决方案：对自信的错误施加比不确定性更大的惩罚，并对恰当的不确定性表达给予部分分数。这个想法并不新鲜。一些标准化考试长期以来一直使用负分制来惩罚错误答案或对留空的问题给予部分分数，以阻止盲目猜测。一些研究团队也探索了考虑不确定性和**校准（calibration）**的评估方法。

我们的观点有所不同。仅仅在旁边增加几个新的不确定性感知测试是不够的。广泛使用的、基于准确率的评估需要更新其评分机制，以阻止猜测行为。如果主要的排行榜继续奖励侥幸的猜测，模型就会继续学习猜测。修正排行榜可以促进幻觉减少技术（无论是新开发的还是来自先前研究的）的广泛应用。

幻觉如何从“下一个词预测”中产生

我们已经讨论了幻觉为什么如此难以消除，但这些高度具体的、事实性不准确的现象最初是从何而来的呢？毕竟，大型预训练模型很少出现其他类型的错误，比如拼写错误和不匹配的括号。这种差异与数据中存在的模式类型有关。

语言模型首先通过预训练（pretraining）进行学习，这是一个在海量文本中预测下一个词的过程。与传统的机器学习问题不同，每个陈述都没有附带“对/错”标签。模型只看到流畅语言的正例（positive examples），必须近似于整体的分布。

当你没有任何标记为“无效”的例子时，区分有效和无效陈述就变得尤为困难。但即使有标签，一些错误也是不可避免的。要理解原因，可以考虑一个简单的类比。在图像识别中，如果数百万张猫狗照片被标记为“猫”或“狗”，算法可以学会可靠地对其进行分类。但想象一下，如果将每张宠物照片都按宠物的生日进行标记。由于生日本质上是随机的，无论算法多么先进，这项任务都会产生错误。

同样的原则也适用于预训练。拼写和括号遵循一致的模式，因此随着规模的扩大，这些错误会消失。但像宠物的生日这样任意的、低频率的事实，无法仅凭模式来预测，因此会导致幻觉。我们的分析解释了哪些类型的幻觉应从“下一个词预测”中产生。理想情况下，预训练之后的进一步阶段应消除它们，但这并未完全成功，原因已在上一节中描述。

结论

我们希望我们论文中的**统计学视角（statistical lens）**能够澄清幻觉的本质，并反驳一些常见的误解：

论点：通过提高准确率可以消除幻觉，因为一个 100% 准确的模型永远不会产生幻觉。
- 发现：准确率永远不会达到 100%，因为无论模型大小、搜索和推理能力如何，一些现实世界的问题本身就是无法回答的。
论点：幻觉是不可避免的。
- 发现：它们不是不可避免的，因为语言模型可以在不确定时选择弃权。
论点：避免幻觉需要一定程度的智能，而这只有更大的模型才能实现。
- 发现：对一个小模型来说，了解自身的局限性可能更容易。例如，当被要求回答一个毛利语问题时，一个不懂毛利语的小模型可以简单地说“我不知道”，而一个懂一些毛利语的模型则必须判断自己的信心程度。正如论文所讨论的，“校准（calibrated）”所需的计算量远小于“准确（accurate）”。
论点：幻觉是现代语言模型中一个神秘的“故障（glitch）”。
- 发现：我们理解幻觉产生的统计机制，以及它们在评估中如何得到奖励。
论点：要衡量幻觉，我们只需要一个好的幻觉评估。
- 发现：幻觉评估已经发布。然而，一个好的幻觉评估面对成百上千个奖励猜测、惩罚谦逊的传统准确率评估时，其效果微乎其微。相反，所有主要的评估指标都需要重新设计，以奖励不确定性的表达。

我们最新的模型幻觉率已经降低，我们也将继续努力，进一步减少我们语言模型输出自信错误的比例。

OpenAI 工程師關於AI為什麼產生幻覺的最新論文

什么是幻觉？

为应试而教

一种更好的评估方式

幻觉如何从“下一个词预测”中产生

结论

仲未