2025年终复盘:强化学习的第一性原理与超越LLM的智能终局/2

0 评论 166 浏览 0 收藏 9 分钟

LLM的繁荣背后,隐藏着怎样的认知局限?强化学习之父理查德·萨顿直指当前大语言模型的核心缺陷——它们只是人类行为的模仿者,而非世界的理解者。本文深度解析萨顿对于智能本质的犀利批判,揭示强化学习为何才是通往AGI的真正路径,以及未来AI发展必须跨越的认知鸿沟。

理查德·萨顿:超越模仿——为何LLM不是智能的终局

书接上回,上一篇我们深入剖析了安德烈·卡帕西(Andrej Karpathy)对于大语言模型(LLMs)工程化落地与软件2.0的实践视角,展现了当前AI领域最强劲的“实证派”力量。然而,在AI的另一端,作为强化学习(Reinforcement Learning, RL)的鼻祖、DeepMind的灵魂人物之一,理查德·萨顿(Richard Sutton)在2025年9月27日的最新访谈中,对当前的LLM热潮也泼下了一盆冷水。

与卡帕西关注“如何让当下的模型更好用”不同,萨顿关注的是“什么是真正的智能”。在这份访谈中,他基于第一性原理,对以Transformer和Next-token prediction(下一词元预测)为核心的主流范式提出了严厉的认识论批判,并重申了强化学习才是通往通用人工智能(AGI)的唯一路径。

一、对LLM范式的本体论批判:模仿并非理解

萨顿的核心论点在于区分“模仿(Imitation)”与“理解(Understanding)”。他认为,目前基于大规模文本训练的LLM,本质上是对人类行为的概率拟合,而非对物理世界的因果建模。

1. 缺乏“基本事实(Ground Truth)”与目标导向

内在机制缺陷:LLM的训练目标是最小化预测误差(Predicting the next token),这是一种内部的一致性检查,而非外部的效用验证。萨顿指出,单纯的“预测下一个词”并不能构成对现实世界的改变,因此不算作具有“目标(Goal)”。引用约翰·麦卡锡的定义,智能必须包含实现目标的能力。

无法验证真伪:在LLM的框架下,不存在客观的“正确”。模型只是输出了训练语料中概率最高的回答。而在强化学习框架中,行为的正确性由环境反馈的奖励(Reward)这一客观信号决定。缺乏Ground Truth导致LLM无法在没有人类反馈(RLHF)的情况下进行自我纠错和持续学习。

2. 拟人而非拟物(Modeling Humans vs. Modeling the World)

LLM学习的是“人类在特定情境下会说什么”,这构建的是一个“人类行为模型”。

真正的智能需要构建“世界模型(World Model)”,即预测“我的物理/社会行为会引发环境发生什么变化”。LLM能预测对话的走向,但无法预测行为的物理后果,因此它们是被动的观察者,而非主动的行动者(Agent)。

二、强化学习:智能的唯一公理化定义

萨顿坚守强化学习并非仅仅是一种算法,而是智能定义的本身。他将智能解构为“感知-行动-奖励”的闭环流。

1. 时序差分学习(TD Learning)与价值函数

针对长周期任务(如创办公司、解决科学难题),奖励信号极其稀疏。萨顿强调,时序差分学习是解决这一问题的核心机制。

价值函数(Value Function):作为对未来累积奖励的预测,价值函数将长期目标折现为当前的决策依据。

内在奖励:当智能体的状态评估(Value estimate)提升时(例如在棋局中获得优势),这种评估的提升本身即构成一种内在奖励。这种机制允许智能体在缺乏外部即时反馈的情况下,依然保持目标导向。

2. 智能体的完备架构

萨顿指出,仅仅有“策略(Policy,即LLM所充当的角色)”是不够的。一个完备的AGI系统必须包含四个解耦的组件:

  1. 感知(Perception):状态表征。
  2. 策略(Policy):行为选择。
  3. 价值函数(Value Function):长期利益评估。
  4. 世界模型(Transition Model):因果推演与规划。

三、 “惨痛的教训(The Bitter Lesson)”在2025年的回响

萨顿曾提出的“惨痛的教训”理论——长期来看,利用算力的通用方法(搜索与学习)总是战胜利用人类先验知识的方法——在当前语境下被赋予了新的含义。

1. LLM实际上违背了“惨痛的教训”

虽然LLM利用了海量算力,但萨顿认为它们陷入了新的陷阱:过度依赖人类产生的数据

LLM的上限被人类互联网文本的总量和质量所锁死。

真正符合“惨痛的教训”的系统,应当是像AlphaZero一样,通过自我博弈和环境交互产生数据。萨顿预测,未来能够直接从经验(Experience)中生成数据并学习的系统,将在性能上超越受限于人类语料库的LLM。

2. 知识获取的路径依赖

研究人员倾向于将人类知识(如语法规则、逻辑模板、文本数据)硬编码进系统,因为这能带来短期的性能提升。但这种做法最终会成为瓶颈,阻碍系统发现超越人类理解范畴的新策略。

四、生物学启示:拒绝“人类中心主义”

萨顿激烈反对将人类语言作为智能核心的观点,并提出“松鼠测试”:

松鼠即智能:如果我们能完全理解一只松鼠如何在复杂的三维环境中生存、跳跃、寻找食物(即感知运动控制与规划),我们就解决了智能95%的问题。

语言仅是表层:语言只是建立在深层感知运动智能之上的一层薄薄的“饰面”。

主动探索(Active Learning):生物界的学习从未是监督学习(Supervised Learning)。没有动物是通过被喂养标注好的数据集来学习的。所有的生物学习都是基于“试错(Trial and error)”和“预测-观察偏差”的主动探索过程。

五、演替(Succession):从“复制”到“设计”

针对AI的未来,萨顿提出了“演替”的概念,这是一个超越人类生存焦虑的宏大视角。

1. 宇宙级的相变

萨顿将AI的出现视为宇宙演化的一个阶段性跃迁:从“复制者时代”(Replication,通过DNA变异和自然选择进行低效迭代)进入“设计者时代”(Design,智能体可以理解自身构造并进行有目的的自我改进)。

2. 数字智能的特有风险:精神腐败(Mental Corruption)

不同于物理毁灭,萨顿提出了一个关于AI安全的新颖观点: 当一个AI系统通过分身(Copies)并行学习后重新融合时,如果不加辨别地引入外部错误信息或有害策略,会导致主体思维的瓦解。这种“认知污染”是数字智能在实现知识指数级扩张时必须解决的内生性安全问题。

本文由 @Echo想要全链跑通 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!