AI会撒谎——而且撒得很有说服力。为什么这很正常

引言

设想一下,你向神经网络提出一个问题,它迅速、流畅且自信地给出答案,而且自信到让人根本不想质疑。问题只在于一点——有些情况下,答案是错的。但最奇怪的是,无论答案正确与否,神经网络表现出的"自信"程度都一模一样。

神经网络如何运作以及错误为何产生

我们都在使用各种神经网络,似乎觉得神经网络"无所不知",但实际上它什么都"不知道"。神经网络,或者说现在流行的AI,并不会核查事实,不会"回忆",也不会怀疑。大多数人理解的AI,也就是所谓的LLM模型,只是在预测下一个词,或者更准确地说是下一个token(词的一部分)。就这样一步步生成答案文本。从数学角度看,LLM模型的这种行为可以描述为选择最可能的文本延续。稍微了解概率论的人应该能理解这个道理:模型"见过"类似文本的次数越多,就越容易复现其结构和语境。由此产生的效应是,典型答案被当作正确答案输出。但最危险的是神经网络犯错的方式。注意,它不会说"我不知道",而是生成一个看似合乎逻辑、连贯且听起来像专家意见的答案。这是因为这类模型使用了注意力机制,其本质是最小化"荒谬性",但并不保证"真实性"。

实践中的表现

这在实际案例中表现得很明显。学生可能会要求神经网络提供某个主题的学术文章,最终得到一份完美的参考文献列表,甚至符合国家标准格式。列表看起来无可挑剔:作者姓名、期刊名称、出版年份,甚至页码都有,但问题在于,列表中的文章并非真实存在。神经网络并非"出错"——它只是复现了参考文献列表最可能的形式,拼凑出一个看似可信但部分虚构的结果。

同样的逻辑也体现在编程中。开发者要求编写一个函数,得到的是整洁、易懂的代码,甚至能通过测试。但当某个用户在服务中触发"罕见"场景时,这段代码就会失效。神经网络没有考虑到这种情况,因为它很少出现,属于"小概率事件"。也就是说,AI编写的不是"可靠"代码,而是典型代码,而这还不够。

在医疗领域也出现同样的效应。用户描述症状后,会得到一个冷静、合乎逻辑的答案,包含可能的病因和建议,但神经网络会"平滑化"风险,认为罕见但危险的疾病即使有相似症状,也只是众多可能性中概率较低的一种。

不妨将AI的工作方式想象成一段行路历程。在那些神经网络经过数千个真实案例训练、积累了丰富经验的知识领域，这就像是一条能给出精准答案的高速公路。而真实数据较少的领域，则像是一条需要"猜测"的乡间小路。几乎没有经验积累的领域，就成了一条狭窄的小径，神经网络只能选择"看似相近的方向"前行。

关键在于，神经网络总是会从可用选项中选择最便捷的道路，然后继续前进。

系统特性与结论

正因如此，用IT行业的话来说，这不是AI的漏洞，而是它的固有特性。神经网络不知道真相在哪里，无法区分事实与错误，也不明白自己犯了错。它只是在严格执行程序员和科学家教给它的任务——那些发明了注意力机制的研究者让它沿着概率空间中最"可行"的路径前进，构建出看起来最自然的答案。这使它既成为强大的工具，同时也成为新风险的来源。

在现代AI模型中，研究人员试图通过接入越来越多的知识库、增加事实核查、同时使用多个模型等方式来修正这一问题，但无法彻底消除它，因为这个问题根植于此类系统的本质之中。

由此得出一个核心结论：神经网络并非在说谎，它也无意欺骗，它只是在构建最可能的答案——而这个答案并不总是真实的。这正是人工智能与人类思维的根本区别所在。