论文精读——DeepSeek-R1 ：强化学习，如何让模型学会思考？

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

论文精读——DeepSeek-R1 ：强化学习，如何让模型学会思考？

AI产品泡腾片

2025-12-03

0 评论 718 浏览 1 收藏

9 分钟

这是论文精读系列之deepseek专题，今天分享deepseek上个月在国际权威期刊《Nature》杂志发表的封面文章《DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning》，中文《DeepSeek-R1：通过强化学习提升大型语言模型的推理能力》。

这篇论文是全球首个通过权威学术期刊同行评审的大语言模型论文，《Nature》杂志给了极高的赞誉，认为这填补了行业空白，是行业朝着透明化迈出的重要一步。

我还专门研究了下为什么Deepseek在《Nature》发表论文引起了这么大的轰动，原来像OpenAI、Google、Anthropic等公司发布其顶尖大模型（如GPT-4、Claude、Gemini）时，通常采用发布技术报告、博客文章或新闻发布会等形式来说明技术细节和性能指标，这种方式与学术论文有本质区别，即缺乏同行评审、细节不透明，基本上它说啥就是啥，不给别人反驳的机会。

但DeepSeek-R1的论文在《Nature》杂志的发表过程，完全遵循了顶级科学研究的标准流程，即：有严格的三方评审、有大量技术细节、正面回复外界质疑。简单来说，主流大模型的研究成果主要在“商业赛场”上通过新闻稿和技术报告比拼，而DeepSeek-R1是第一个主动进入“科学赛场”，接受并通过了全球顶尖科学家依据最严格的学术规则进行的检验。

它为整个AI行业树立了一个新标杆，即真正具有影响力的技术创新，应当并且能够经受住公开、严谨的科学审视。言归正传。该篇论文基于一个大胆的假设：“如果不再“手把手教”模型推理，而是让它靠强化学习自己摸索，只根据答案是否正确给奖励，模型能不能自己学会‘思考’？”他们的实验回答是：能，而且效果惊人。

在数学推理任务 AIME 2024 上，模型从15.6% → 77.9%（RL 结束）→ 86.7%（自一致性评估）。
在编程平台 Codeforces 上，模型达到了96.3 百分位、rating 2029，超过多数人类程序员。

所以这篇论文最核心的结论是：在大规模、纯强化学习（RL）训练下，仅靠最终正确性奖励，语言模型能自发形成复杂推理能力。（敲重点）

当前大模型的训练方法有什么不足？

当前主流的训练范式是：Pretrain → SFT → RLHF (PPO-based)，虽然造出了 GPT-4、Claude、Gemini 这些神级模型，但也有三大问题：

人类教学太贵、太慢：高质量推理样本（尤其长 chain-of-thought）极其昂贵，动辄上亿 token，且不同任务领域可迁移性差。
模型在模仿人类而非真正的“思考”：SFT 用人类写的 CoT 数据教模型“怎么回答”，但模型学的是分布模式，不是推理机制。它生成出“像推理的句子”，但并不真正推理。
RLHF 奖励太粗糙：人类偏好模型在多轮对话上主要通过“Helpfulness（有帮助）、Harmlessness（无害）、Honesty（诚实）”来打分，缺乏对“推理”正确性、答案正确性的关注，导致模型可能语言优雅、逻辑流畅，却给错答案。