AI涌现能力的五个层级——AI训练师的亲笔记录

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

AI涌现能力的五个层级——AI训练师的亲笔记录

周周粥粥

2026-04-23

0 评论 255 浏览 1 收藏

20 分钟

模型涌现现象远非表面那么简单，背后暗藏五层递进逻辑。从临界点亮的突变效应到组合能力的自发串联，从差异化策略的自我进化到意图识别的精准判断，直至反思能力的若隐若现——每个层级的涌现都对应着不同的训练策略与评测方法。本文将深入拆解这五个关键层级，为模型训练者提供可落地的评测框架与标注优化方案。

“涌现”这个词被用得太泛了。模型多做对了一道数学题叫涌现，突然能写诗了也叫涌现，好像只要出现一个训练目标里没显式定义的能力，就统统往这个筐里扔。

站在训练者的角度，这些现象之间的差异是巨大的。有些涌现你提前能感知到——数据到位了，信号够了，能力迟早会出来，它只是在等一个临界点。有些涌现是真的意外——你翻遍训练数据也找不到它学这个的来源。

但我在模型训练中观察到的涌现现象，大致可以归为五个层级。

第一层：临界点亮

这是最基础的涌现形式，也是最容易被低估的。

说它基础，是因为它本质上就是”从不会到会”的阈值突破。说它容易被低估，是因为大家习惯把它当成理所当然——数据够了自然就会嘛。

但在实际评测中，这个过程远没有那么平滑。

模型在早期对长网页的摘要能力一直很弱。评测集里有一类case是超过三千字的长文，模型的摘要要么漏掉核心论点，要么把次要信息当主要内容写进去。连续几轮评测，长文摘要的评分都卡在差不多的位置，上不去。

我每次评测完都会整理badcase，发现一个有意思的现象：每次错的具体case不太一样，但整体评分几乎没变。这意味着模型不是在反复犯同一个错误，而是整体能力就差那么一口气。

然后某一轮评测，突然就好了。长文摘要的评分跳了一大截。

我去问算法那边改了什么，得到的回复是”这批加了一批经过严格质检的长文摘要数据”。这批数据有什么特别的？标注员在标注时不只是写摘要，还额外标注了文章的结构骨架——哪些是核心论点、哪些是支撑论据、哪些是背景信息。

这就是临界点亮的核心特征：不是渐进改善，是阶跃函数。 在临界点的这一侧，什么都没有；跨过去之后，能力几乎是瞬间出现的。

这个现象对做标注质检工作的启示很直接：你不知道你质检的这批数据会不会就是压死骆驼的最后一根稻草，所以每一批数据的质量都不能糊弄。

我见过太多这种情况——标注团队为了赶进度，对标注质量放松了标准，觉得”差不多就行”，摘要写得粗糙一点、结构标注漏掉一些，影响不大吧？但如果你理解临界点亮的机制，你就知道：差的那一点数据，可能恰恰是模型跨过临界点需要的那一脚。你省下的那点质检时间，可能让整个团队多等两周。

第二层：组合涌现

模型分别学会了几个基础能力，然后在某个时刻，它开始把这些能力组合起来使用，产生了一个训练目标里没有显式定义的新行为。

网页摘要Agent的基础能力包括：理解网页结构、提取关键信息、压缩文本、组织语言。这些能力在评测中是分开考核的——信息提取准不准、压缩比合不合理、语言通不通顺，各有各的评测维度。

但在某次评测中，我开始看到模型把这些能力串联起来完成更复杂的任务了。

有一类case是让用户对比两篇同类文章——比如两篇手机评测，用户想知道它们的结论有什么不同。模型的处理方式是：分别阅读两篇文章→各自提取核心观点→把两篇文章的结论放在一起做对比分析→生成对比摘要。

这条链路上的每一步，模型的单项能力都达标了。但把它们串成一个完整的对比分析流程，是评测集里没有显式覆盖的。它自己”拼”出来了。

我在做badcase分析时注意到，组合涌现的出现有一个很明显的前提条件：单项能力的错误率必须低到一定程度。

这个道理说起来像废话，但实际影响很大。我在评测中见过很多次，模型在对比两篇文章时，第一篇的信息提取做对了，第二篇漏掉了关键论点，整个对比分析就废了。两篇文章的摘要任务，每篇信息提取90%准确率，整体对比分析的有效性可能只有80%。串联的环节越多，对单步准确率的要求越高。

所以一个很现实的问题是：什么时候该去考核组合能力？ 太早了，单项能力不够，组合评测只会产出一堆毫无分析价值的失败case，浪费评测资源。太晚了，你可能错过了发现组合涌现的最佳窗口期。

我的经验是，当单项能力在评测集上的评分稳定在良好以上，就可以开始设计组合任务的评测了。不是等到满分——事实上永远不会有满分——而是等到单项错误变得足够稀疏，让你在组合评测中能把注意力放在”能力衔接”上，而不是”单步出错”上。

第三层：策略涌现

这是我觉得最有意思的一层，也是最容易让人产生”这东西是不是有智能了”这种错觉的一层。

策略涌现指的是：模型发展出了某种应对特定情况的系统性行为模式，而这种模式在训练数据中并没有明确对应的范例。

在摘要Agent的评测中，这个现象特别容易观察到。

模型在早期对所有类型的网页都用差不多的方式处理——不管是一篇新闻报道还是一篇学术论文，摘要的风格和结构都差不多。这导致学术论文的摘要缺少方法论信息，新闻报道的摘要又太啰嗦。

但在某次评测中，我发现模型开始”看人下菜碟”了。

面对新闻类网页，摘要会优先抓时间、地点、事件、结果，结构很紧凑。面对产品评测类网页，摘要会突出优缺点对比和最终推荐意见。面对学术论文，摘要会包含研究方法和核心结论，甚至会提到数据来源。

这种差异化策略不是评测集里定义的”标准答案”。我们的标注指南里也没有”新闻用这种格式、论文用那种格式”的要求。它就是自己发展出了这种策略。

另一个让我印象深刻的例子：模型在处理特别短的网页时——比如一个产品页面只有一段简介和几个参数——早期会硬凑出一段冗长的摘要。后来它发展出了一个策略：对于信息密度本身就不高的短网页，直接用一句话概括，不硬撑篇幅。

我第一次在评测记录里看到这个行为的时候，翻了好几条确认不是偶然。后来统计了一下，在短网页的case中，模型生成合理长度摘要的比例，从之前的六成涨到了将近九成。

策略涌现最容易被误读的地方在于：你很容易把”有效的行为模式”等同于”模型理解了自己在做什么”。

看到模型对新闻和论文用不同的摘要策略，就觉得它”理解”了两种内容的差异。但更可能的解释是：在训练过程中，差异化策略恰好获得了更高的评测分数，所以被强化了。模型可能并不”理解”新闻和论文有什么本质区别，但它确实发展出了对不同类型网页的有效处理策略。

这两者的区别在学术上争论很大。但在做评测的日常工作中，我的判断标准很简单：策略是否稳定？是否可复现？有没有副作用？ 只要这三个条件都满足，我就把它标记为”有效策略”，不纠结它背后是不是”真的理解”。评测师的工作是准确描述模型的行为，不是替哲学家回答”什么是理解”。

第四层：意图涌现

前三层的能力，说到底都还在”工具”的范畴内。模型在执行明确的任务——给你一篇文章，输出一段摘要，只是输出的方式越来越聪明。

但意图涌现不一样。它指的是模型开始能够推断出用户没有明确说出来的摘要需求——读懂言外之意。

这个现象在评测中特别有意思。

有一次做评测，用户输入是”帮我看看这篇论文讲了什么”。模型的摘要不只是把论文内容压缩了一遍，而是重点突出了论文的核心结论和创新点，对研究背景和相关工作部分做了大幅简化。

这条case的标注答案是一篇中规中矩的论文摘要，信息覆盖全面，各部分比例均衡。如果按照标注答案来评分，模型的输出其实”漏掉”了不少信息。但如果你站在用户的角度想——一个人说”帮我看看这篇论文讲了什么”，他大概率是想知道这篇论文值不值得细读，而不是要一份完整的文献综述。

模型推断出了用户的真实意图，并据此调整了摘要的侧重点。

这种能力对评测标准提出了很大的挑战。

传统的评测框架是”摘要是否准确、完整、简洁”。但当模型开始推断用户意图的时候，”完整”这个标准就变得模糊了。用户说”帮我看看这篇论文”，模型只写了核心结论——这算”不完整”还是”精准”？

问题是：不完整，在这里是错还是对？

我的做法是在评测维度里加了一条”意图匹配度”——不只看摘要是否覆盖了文章的主要内容，还要看它是否回应了用户可能的真实需求。这条维度很难标，标注员之间的标注一致性也不高，但它确实能捕捉到一些传统评测框架遗漏的东西。

另外有一个观察：意图涌现跟网页类型和用户query的组合关系很大。 同一篇论文，如果用户说的是”帮我看看这篇论文讲了什么”和”帮我总结一下这篇论文的方法论”，模型应该给出完全不同的摘要。模型能不能根据query的细微差异调整摘要策略，是意图涌现的一个重要表现。

这也是为什么我在设计评测集时，会刻意把同一篇网页配上不同的用户query，看模型能不能做出差异化响应。这个维度的区分度，往往比”摘要准不准”更能反映模型的真实能力水平。

第五层：反思涌现

这是最让我纠结的一层。

所谓反思涌现，是指模型展现出某种”自我监控”和”自我修正”的行为——它似乎能够评估自己的摘要质量，并在发现问题时主动调整。

在摘要Agent的评测中，我观察到一个非常有意思的模式。

模型在处理某些复杂网页时，会在生成摘要的过程中输出一段类似”自我检查”的内容（Agent有chain-of-thought的机制），大意是：”这篇网页的核心信息在第三段，但我刚才的摘要没有充分体现这一点，我需要调整。”

然后它真的调整了。最终输出的摘要确实把第三段的核心信息放在了更突出的位置。

第一次在评测记录里看到这个行为的时候，我的第一反应不是兴奋，而是怀疑。这是模型在”反思”吗？还是它只是在复现训练数据中某个类似的模式，恰好看起来像反思？

老实说，我到现在也不能百分百确定。

但有一些证据让我倾向于认为，这至少是一种”功能性反思”——模型确实发展出了一种内部评估机制，能够检测到”当前摘要和网页内容的匹配度不够”并触发修正行为。这种能力不是我能在训练数据中找到明确来源的。它是模型在大量网页摘要任务的训练中，通过试错和评测反馈，自发发展出来的。

反思涌现的实践价值很大——它直接决定了摘要的可靠性。 在评测中，能自我修正的Agent和不能自我修正的Agent，摘要质量的差距是肉眼可见的。前者偶尔抓错重点但能自己调回来，后者抓错了就一路错到底，把错误信息堂而皇之地放在摘要里。

但我要诚实地说：反思涌现也是五层中最不稳定的。它时有时无，受网页长度、内容复杂度、甚至模型版本的影响都很大。同一个case，这次评测能看到反思行为，下次评测就看不到了。你不能指望它每次都出现，也不能把它当成一个可靠的”能力”写进评测报告里。

这恰恰是涌现的本质特征——它不是功能，它是倾向。 你不能像调API一样调用它，你只能创造条件让它更可能出现。

写在最后

把涌现分成五个层级，不是为了搞一个漂亮的分类学。它对日常的评测和标注工作有实际的指导意义。

不同层级需要不同的评测设计。 临界点亮靠对比评测——看同一个评测集在不同版本之间的表现差异。组合涌现靠组合任务评测——设计需要多步骤串联的对比分析case。策略涌现靠人工审查——模型的摘要质量不错，但它是怎么做到的？这个”怎么”需要人去看。意图涌现靠同文不同query的评测——同一篇网页配上不同的用户需求，看模型能不能差异化响应。反思涌现目前还没有靠谱的评测方法，这也是为什么它最不稳定。

不同层级对标注质量的要求不同。 临界点亮靠标注数量和质量的双重突破；组合涌现靠任务级标注数据的建设；策略涌现靠多样化的边界case标注；意图涌现靠高质量的query-摘要配对样本。如果你在做标注质检工作，理解这些差异能帮你把有限的精力花在刀刃上——不是所有标注都值得花同样的时间去质检。

最后说一句可能不太受欢迎的话：我们对涌现的理解，还远远不够。

我上面写的这些观察，很多都是基于日常工作中的经验和推测，不是严格的因果分析。模型内部到底发生了什么，为什么会出现这些行为，这些问题在学术界都还没有定论。我一个做了两年网页摘要Agent评测和标注工作的训练师，能看到的只是现象，看不到机制。

但我觉得这恰恰是写这篇文章的意义——不是给出权威答案，而是提供一个一线视角的观察框架。如果你也在做模型评测或者标注相关的工作，你大概率见过类似的现象。你可以对照这五个层级，看看你的观察和我的是否一致，哪些地方你有不同的判断。

涌现不是魔法，但它也还没被完全理解。这两件事可以同时为真。

而我们能做的，就是把每一次评测中看到的异常行为记下来，把每一条需要质检的标注数据标到位。理解涌现不是一天的事，但积累观察是每一天的事。

本文由 @周周粥粥原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App