1. 并不是“胡说八道”,而是“概率的冒险”
在 Transformer 架构下,模型并不像数据库那样“存储”事实,它存储的是概率分布。
当我们输入“秦始皇不仅统一了六国,还……”时,模型在进行下一词预测(Next Token Prediction)。它在巨大的高维空间中寻找下一个最合理的词。
- 事实(Fact): 往往对应着概率分布中最高的那个峰值(Peak),比如“修筑了长城”。
- 幻觉(Hallucination): 则往往发生在模型选择了概率略低、但逻辑上依然通顺的路径,比如“发明了电灯”。
从数学公式上看,模型生成序列 $Y = (y_1, y_2, ..., y_n)$ 的概率是:
所谓的“幻觉”,本质上是模型在采样(Sampling)过程中,为了追求多样性(Diversity)而偏离了最大似然估计。如果模型永远只选择概率最高的词,它的回答将极其枯燥、重复且死板。
2. 温度:调节“严谨”与“疯癫”的旋钮
这就引入了一个关键参数:Temperature(温度)。
- 低温度 ($T \to 0$): 模型变得保守,只敢说它在训练数据中见过最多次的组合。这时,它是严谨的记录员,幻觉很少,但创造力为零。
- 高温度 ($T > 1$): 模型被允许去探索概率分布的“长尾”(Long Tail)。它开始将风马牛不相及的概念连接起来。这时,它是疯狂的诗人。
核心观点: 创造力的本质,就是“意料之外,情理之中”。人类的灵感往往也是大脑神经元的一次“错误连接”或“跳跃性联想”。因此,幻觉并非系统的故障,而是系统在尝试创造时的副产品。
3. 压缩与有损还原:记忆的模糊地带
特德·姜(Ted Chiang)曾将 ChatGPT 比作“网上所有文本的模糊图像(Blurry JPEG)”。Transformer 模型将海量的人类知识压缩到了权重矩阵中。这种压缩是有损的(Lossy)。
当模型试图还原某个具体事实(例如某篇冷门论文的第三作者)时,由于“有损压缩”,它丢失了精确的像素,只保留了轮廓。于是,它利用其强大的逻辑推理能力(泛化能力)去“脑补”丢失的像素。
这种“脑补”能力,在写科幻小说时被称为“想象力”,而在写医疗报告时则被称为“致命的幻觉”。
4. 既然无法消除,不如“驾驭”
如果我们承认幻觉是创造力的孪生兄弟,那么工程上的目标就不应该是“彻底消灭幻觉”(因为那意味着扼杀模型的泛化能力),而是“控制幻觉的发生场景”。
- RAG (检索增强生成): 给模型一本“参考书”,强迫它在回答事实性问题时先查阅资料。这是用外挂知识库来约束内部的概率发散。
- 思维链 (Chain of Thought): 让模型展示推理过程,迫使其概率分布收敛到逻辑自洽的路径上。
5. 结论:机器的“梦境”
人类在做梦时,大脑切断了感官输入,内部神经元自由放电,产生荒诞的幻觉。但许多伟大的科学发现和艺术灵感正源于梦境或白日梦。
AI 的幻觉,就是机器的“梦”。当我们指责 AI “产生幻觉”时,我们其实是在指责它在一个需要唯物主义(事实)的场合,表现出了唯心主义(创造)的特质。
理解了这一点,我们才能真正理解 Transformer:它不是一个只会搜索的搜索引擎,它是一个基于概率的生成引擎。它的天性是生成,准确性只是人类强加给它的约束。
← 返回文章列表