AI涌现能力的五个层级——AI训练师的亲笔记录
模型涌现现象远非表面那么简单,背后暗藏五层递进逻辑。从临界点亮的突变效应到组合能力的自发串联,从差异化策略的自我进化到意图识别的精准判断,直至反思能力的若隐若现——每个层级的涌现都对应着不同的训练策略与评测方法。本文将深入拆解这五个关键层级,为模型训练者提供可落地的评测框架与标注优化方案。

“涌现”这个词被用得太泛了。模型多做对了一道数学题叫涌现,突然能写诗了也叫涌现,好像只要出现一个训练目标里没显式定义的能力,就统统往这个筐里扔。
站在训练者的角度,这些现象之间的差异是巨大的。有些涌现你提前能感知到——数据到位了,信号够了,能力迟早会出来,它只是在等一个临界点。有些涌现是真的意外——你翻遍训练数据也找不到它学这个的来源。
但我在模型训练中观察到的涌现现象,大致可以归为五个层级。
第一层:临界点亮
这是最基础的涌现形式,也是最容易被低估的。
说它基础,是因为它本质上就是”从不会到会”的阈值突破。说它容易被低估,是因为大家习惯把它当成理所当然——数据够了自然就会嘛。
但在实际评测中,这个过程远没有那么平滑。
模型在早期对长网页的摘要能力一直很弱。评测集里有一类case是超过三千字的长文,模型的摘要要么漏掉核心论点,要么把次要信息当主要内容写进去。连续几轮评测,长文摘要的评分都卡在差不多的位置,上不去。
我每次评测完都会整理badcase,发现一个有意思的现象:每次错的具体case不太一样,但整体评分几乎没变。这意味着模型不是在反复犯同一个错误,而是整体能力就差那么一口气。
然后某一轮评测,突然就好了。长文摘要的评分跳了一大截。
我去问算法那边改了什么,得到的回复是”这批加了一批经过严格质检的长文摘要数据”。这批数据有什么特别的?标注员在标注时不只是写摘要,还额外标注了文章的结构骨架——哪些是核心论点、哪些是支撑论据、哪些是背景信息。
这就是临界点亮的核心特征:不是渐进改善,是阶跃函数。 在临界点的这一侧,什么都没有;跨过去之后,能力几乎是瞬间出现的。
这个现象对做标注质检工作的启示很直接:你不知道你质检的这批数据会不会就是压死骆驼的最后一根稻草,所以每一批数据的质量都不能糊弄。
我见过太多这种情况——标注团队为了赶进度,对标注质量放松了标准,觉得”差不多就行”,摘要写得粗糙一点、结构标注漏掉一些,影响不大吧?但如果你理解临界点亮的机制,你就知道:差的那一点数据,可能恰恰是模型跨过临界点需要的那一脚。你省下的那点质检时间,可能让整个团队多等两周。
第二层:组合涌现
模型分别学会了几个基础能力,然后在某个时刻,它开始把这些能力组合起来使用,产生了一个训练目标里没有显式定义的新行为。
网页摘要Agent的基础能力包括:理解网页结构、提取关键信息、压缩文本、组织语言。这些能力在评测中是分开考核的——信息提取准不准、压缩比合不合理、语言通不通顺,各有各的评测维度。
但在某次评测中,我开始看到模型把这些能力串联起来完成更复杂的任务了。
有一类case是让用户对比两篇同类文章——比如两篇手机评测,用户想知道它们的结论有什么不同。模型的处理方式是:分别阅读两篇文章→各自提取核心观点→把两篇文章的结论放在一起做对比分析→生成对比摘要。
这条链路上的每一步,模型的单项能力都达标了。但把它们串成一个完整的对比分析流程,是评测集里没有显式覆盖的。它自己”拼”出来了。
我在做badcase分析时注意到,组合涌现的出现有一个很明显的前提条件:单项能力的错误率必须低到一定程度。
这个道理说起来像废话,但实际影响很大。我在评测中见过很多次,模型在对比两篇文章时,第一篇的信息提取做对了,第二篇漏掉了关键论点,整个对比分析就废了。两篇文章的摘要任务,每篇信息提取90%准确率,整体对比分析的有效性可能只有80%。串联的环节越多,对单步准确率的要求越高。
所以一个很现实的问题是:什么时候该去考核组合能力? 太早了,单项能力不够,组合评测只会产出一堆毫无分析价值的失败case,浪费评测资源。太晚了,你可能错过了发现组合涌现的最佳窗口期。
我的经验是,当单项能力在评测集上的评分稳定在良好以上,就可以开始设计组合任务的评测了。不是等到满分——事实上永远不会有满分——而是等到单项错误变得足够稀疏,让你在组合评测中能把注意力放在”能力衔接”上,而不是”单步出错”上。
第三层:策略涌现
这是我觉得最有意思的一层,也是最容易让人产生”这东西是不是有智能了”这种错觉的一层。
策略涌现指的是:模型发展出了某种应对特定情况的系统性行为模式,而这种模式在训练数据中并没有明确对应的范例。
在摘要Agent的评测中,这个现象特别容易观察到。
模型在早期对所有类型的网页都用差不多的方式处理——不管是一篇新闻报道还是一篇学术论文,摘要的风格和结构都差不多。这导致学术论文的摘要缺少方法论信息,新闻报道的摘要又太啰嗦。
但在某次评测中,我发现模型开始”看人下菜碟”了。
面对新闻类网页,摘要会优先抓时间、地点、事件、结果,结构很紧凑。面对产品评测类网页,摘要会突出优缺点对比和最终推荐意见。面对学术论文,摘要会包含研究方法和核心结论,甚至会提到数据来源。
这种差异化策略不是评测集里定义的”标准答案”。我们的标注指南里也没有”新闻用这种格式、论文用那种格式”的要求。它就是自己发展出了这种策略。
另一个让我印象深刻的例子:模型在处理特别短的网页时——比如一个产品页面只有一段简介和几个参数——早期会硬凑出一段冗长的摘要。后来它发展出了一个策略:对于信息密度本身就不高的短网页,直接用一句话概括,不硬撑篇幅。
我第一次在评测记录里看到这个行为的时候,翻了好几条确认不是偶然。后来统计了一下,在短网页的case中,模型生成合理长度摘要的比例,从之前的六成涨到了将近九成。
策略涌现最容易被误读的地方在于:你很容易把”有效的行为模式”等同于”模型理解了自己在做什么”。
看到模型对新闻和论文用不同的摘要策略,就觉得它”理解”了两种内容的差异。但更可能的解释是:在训练过程中,差异化策略恰好获得了更高的评测分数,所以被强化了。模型可能并不”理解”新闻和论文有什么本质区别,但它确实发展出了对不同类型网页的有效处理策略。
这两者的区别在学术上争论很大。但在做评测的日常工作中,我的判断标准很简单:策略是否稳定?是否可复现?有没有副作用? 只要这三个条件都满足,我就把它标记为”有效策略”,不纠结它背后是不是”真的理解”。评测师的工作是准确描述模型的行为,不是替哲学家回答”什么是理解”。
第四层:意图涌现
前三层的能力,说到底都还在”工具”的范畴内。模型在执行明确的任务——给你一篇文章,输出一段摘要,只是输出的方式越来越聪明。
但意图涌现不一样。它指的是模型开始能够推断出用户没有明确说出来的摘要需求——读懂言外之意。
这个现象在评测中特别有意思。
有一次做评测,用户输入是”帮我看看这篇论文讲了什么”。模型的摘要不只是把论文内容压缩了一遍,而是重点突出了论文的核心结论和创新点,对研究背景和相关工作部分做了大幅简化。
这条case的标注答案是一篇中规中矩的论文摘要,信息覆盖全面,各部分比例均衡。如果按照标注答案来评分,模型的输出其实”漏掉”了不少信息。但如果你站在用户的角度想——一个人说”帮我看看这篇论文讲了什么”,他大概率是想知道这篇论文值不值得细读,而不是要一份完整的文献综述。
模型推断出了用户的真实意图,并据此调整了摘要的侧重点。
这种能力对评测标准提出了很大的挑战。
传统的评测框架是”摘要是否准确、完整、简洁”。但当模型开始推断用户意图的时候,”完整”这个标准就变得模糊了。用户说”帮我看看这篇论文”,模型只写了核心结论——这算”不完整”还是”精准”?
问题是:不完整,在这里是错还是对?
我的做法是在评测维度里加了一条”意图匹配度”——不只看摘要是否覆盖了文章的主要内容,还要看它是否回应了用户可能的真实需求。这条维度很难标,标注员之间的标注一致性也不高,但它确实能捕捉到一些传统评测框架遗漏的东西。
另外有一个观察:意图涌现跟网页类型和用户query的组合关系很大。 同一篇论文,如果用户说的是”帮我看看这篇论文讲了什么”和”帮我总结一下这篇论文的方法论”,模型应该给出完全不同的摘要。模型能不能根据query的细微差异调整摘要策略,是意图涌现的一个重要表现。
这也是为什么我在设计评测集时,会刻意把同一篇网页配上不同的用户query,看模型能不能做出差异化响应。这个维度的区分度,往往比”摘要准不准”更能反映模型的真实能力水平。
第五层:反思涌现
这是最让我纠结的一层。
所谓反思涌现,是指模型展现出某种”自我监控”和”自我修正”的行为——它似乎能够评估自己的摘要质量,并在发现问题时主动调整。
在摘要Agent的评测中,我观察到一个非常有意思的模式。
模型在处理某些复杂网页时,会在生成摘要的过程中输出一段类似”自我检查”的内容(Agent有chain-of-thought的机制),大意是:”这篇网页的核心信息在第三段,但我刚才的摘要没有充分体现这一点,我需要调整。”
然后它真的调整了。最终输出的摘要确实把第三段的核心信息放在了更突出的位置。
第一次在评测记录里看到这个行为的时候,我的第一反应不是兴奋,而是怀疑。这是模型在”反思”吗?还是它只是在复现训练数据中某个类似的模式,恰好看起来像反思?
老实说,我到现在也不能百分百确定。
但有一些证据让我倾向于认为,这至少是一种”功能性反思”——模型确实发展出了一种内部评估机制,能够检测到”当前摘要和网页内容的匹配度不够”并触发修正行为。这种能力不是我能在训练数据中找到明确来源的。它是模型在大量网页摘要任务的训练中,通过试错和评测反馈,自发发展出来的。
反思涌现的实践价值很大——它直接决定了摘要的可靠性。 在评测中,能自我修正的Agent和不能自我修正的Agent,摘要质量的差距是肉眼可见的。前者偶尔抓错重点但能自己调回来,后者抓错了就一路错到底,把错误信息堂而皇之地放在摘要里。
但我要诚实地说:反思涌现也是五层中最不稳定的。它时有时无,受网页长度、内容复杂度、甚至模型版本的影响都很大。同一个case,这次评测能看到反思行为,下次评测就看不到了。你不能指望它每次都出现,也不能把它当成一个可靠的”能力”写进评测报告里。
这恰恰是涌现的本质特征——它不是功能,它是倾向。 你不能像调API一样调用它,你只能创造条件让它更可能出现。
写在最后
把涌现分成五个层级,不是为了搞一个漂亮的分类学。它对日常的评测和标注工作有实际的指导意义。
不同层级需要不同的评测设计。 临界点亮靠对比评测——看同一个评测集在不同版本之间的表现差异。组合涌现靠组合任务评测——设计需要多步骤串联的对比分析case。策略涌现靠人工审查——模型的摘要质量不错,但它是怎么做到的?这个”怎么”需要人去看。意图涌现靠同文不同query的评测——同一篇网页配上不同的用户需求,看模型能不能差异化响应。反思涌现目前还没有靠谱的评测方法,这也是为什么它最不稳定。
不同层级对标注质量的要求不同。 临界点亮靠标注数量和质量的双重突破;组合涌现靠任务级标注数据的建设;策略涌现靠多样化的边界case标注;意图涌现靠高质量的query-摘要配对样本。如果你在做标注质检工作,理解这些差异能帮你把有限的精力花在刀刃上——不是所有标注都值得花同样的时间去质检。
最后说一句可能不太受欢迎的话:我们对涌现的理解,还远远不够。
我上面写的这些观察,很多都是基于日常工作中的经验和推测,不是严格的因果分析。模型内部到底发生了什么,为什么会出现这些行为,这些问题在学术界都还没有定论。我一个做了两年网页摘要Agent评测和标注工作的训练师,能看到的只是现象,看不到机制。
但我觉得这恰恰是写这篇文章的意义——不是给出权威答案,而是提供一个一线视角的观察框架。如果你也在做模型评测或者标注相关的工作,你大概率见过类似的现象。你可以对照这五个层级,看看你的观察和我的是否一致,哪些地方你有不同的判断。
涌现不是魔法,但它也还没被完全理解。这两件事可以同时为真。
而我们能做的,就是把每一次评测中看到的异常行为记下来,把每一条需要质检的标注数据标到位。理解涌现不是一天的事,但积累观察是每一天的事。
本文由 @周周粥粥 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
- 目前还没评论,等你发挥!

起点课堂会员权益




