你以为大模型在学语言？不，它在重新发明语言学

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

你以为大模型在学语言？不，它在重新发明语言学

卜小

2026-04-11

0 评论 990 浏览 0 收藏

13 分钟

大模型的训练远非简单的数据工程，而是一场与语言学深度交织的认知革命。从索绪尔的语言系统到格赖斯的语用准则，从分布式语义到多语言认知陷阱，本文以语言学为手术刀，剖开大模型运作的底层逻辑。产品经理需要重新理解：模型对齐实质是语用共识的编码，提示工程本质是语境框架的构建，而幻觉问题则暴露了语义指称的缺失。当AI开始处理人类最精密的认知编码系统时，语言学不再是学术装饰，而是产品设计的必修课。

一、一个根本性的误解：大模型并不是在”学语言”

行业里有一种根深蒂固的说法——”大模型通过海量语料学会了语言”。这句话听起来合理，但从语言学角度看，它几乎每个字都值得商榷。

语言学家索绪尔在一百多年前就区分了 langue（语言系统） 和 parole（言语行为）。语料库里装的全是 parole——人们说过的话、写过的字。而 langue，那套驱动所有言语行为的底层规则系统，从来不会显式地出现在任何一段文本里。

这就引出了一个深刻的问题：大模型从来没有接触过”语言”本身，它只接触过语言的产物。 就像一个人从未见过棋盘和棋子，只看过几百万盘棋的棋谱记录，却要从中”悟出”围棋规则。大模型干的就是这件事——而且，它似乎干成了。

这本身就是对乔姆斯基“刺激贫乏论”（刺激的贫穷）的一次反驳实验。乔姆斯基认为，儿童接触的语言数据太有限、太嘈杂，不可能仅凭数据归纳出语法，所以人类必须有先天的语言能力。但大模型用一种暴力美学的方式证明了：如果数据量足够大，统计归纳确实可以逼近语法能力。

当然，”逼近”和”等同”之间，还隔着一整个语言学。

二、语言训练的本质：不是”教模型说话”，而是”压缩人类的语用共识”

很多产品经理或运营同学在接触模型训练（尤其是 SFT 和 RLHF）时，会简单地理解为“教模型说人话”。但如果你懂一点语用学（pragmatics），就会发现这个过程远比“说人话”复杂。

语言学家格赖斯（Grice）提出了著名的合作原则，包含四条准则：质量准则（说真话）、数量准则（信息量恰当）、关联准则（相关）、方式准则（清晰有条理）。

你再看看 RLHF 训练中人类标注员在干什么——他们在评估模型的回答是否真实、充分、相关、清晰。这不就是格赖斯准则的操作化吗？

也就是说，RLHF 的本质，是在把人类社会几千年来默认遵守的语用共识，用偏好信号的方式写入模型的参数里。 标注员以为自己在做”质量标注”，但从语言学的角度看，他们其实在充当”语用规范的编码器”。

这也解释了为什么不同文化背景的标注团队训练出的模型”气质”不同——因为合作原则的权重分配本身就是文化相关的。英语语境偏爱直接、精确（方式准则权重高），而中文语境常常允许更多隐含意义和留白（关联准则更灵活）。训练数据和标注偏好里隐藏的，是整个语用文化的基因。

三、Prompt Engineering 的语言学真相：你在跟模型玩一场“语用博弈”

为什么同样的问题，换一种问法，模型的回答质量天差地别？很多人把这归结为”模型的理解能力不稳定”。但语言学给出了更精准的解释。

语言学中有一个概念叫预设（presupposition）。当你问”你什么时候不再犯这个错误？”，这个问题预设了”你一直在犯错”。模型对预设高度敏感——prompt 中的每一个措辞选择，都在暗暗设定语境框架。

另一个核心概念是言语行为理论（Speech Act Theory）。Austin 和 Searle 告诉我们，说话不只是传递信息，而是在“做事”——请求、命令、承诺、宣告。当你写 prompt 说“请帮我分析一下”，你执行的是一个请求行为，模型会用较为谦逊和辅助性的语气回应。但如果你写”你是一个资深分析师，请给出你的专业判断”，你在执行一个角色指派+命令行为，模型的回应方式会截然不同。

所以，Prompt Engineering 的实质，不是在“给模型下指令”，而是在构建一个微型的语用场景——你在定义角色关系、预设共识、会话目标、信息权力结构。 这完全是一个语用学和话语分析的问题域。

那些写出好 prompt 的人，未必懂技术，但一定有极强的语言直觉。他们天然理解：同样的信息，不同的语境框架会催生不同的话语策略。

四、为什么模型会”一本正经地胡说八道”？从语义学找答案

大模型的“幻觉”问题（hallucination）是行业痛点。技术圈习惯从概率分布的角度解释：模型生成了高概率但事实错误的 token 序列。这没错，但它只描述了现象，没有解释根源。

语言学提供了一个更根本的视角：大模型的语义系统是“分布式语义”（分布语义），而非“指称式语义”（指称语义）。

什么意思？人类的语言有一个关键能力叫“指称”（参考）——“北京”这个词指向现实世界中一个具体的城市。但大模型没有任何“指向现实”的通道，它所理解的“北京”，只是“北京”这个 token 与其他 token 的共现关系网络。

语言学家弗雷格（Frege）早在 1892 年就区分了 Sinn（涵义） 和 Bedeutung（指称）。大模型拥有极其丰富的 Sinn——它知道“北京”和“首都”“故宫”“雾霾”的关系，但它没有 Bedeutung——它不知道“北京”指向一个有经纬度、有两千万人口的真实城市。

幻觉的根源，不是模型”算错了”，而是它在一个没有指称锚点的语义空间里自洽地推演。它的每一句话在语义关系上都说得通，但在真值条件（truth condition）上可能完全错误。

这也意味着，单纯靠扩大数据量或增强推理能力，无法根治幻觉。你需要给模型接入”现实接口”——搜索引擎、知识图谱、传感器数据——本质上是在为它补上缺失的”指称层”。

五、多语言训练的隐秘陷阱：语言不只是”换一套编码”

很多团队在做多语言模型时，把不同语言当成”同一种信息的不同编码”。这是一种危险的简化。

语言学中的 萨丕尔-沃尔夫假说（Sapir-Whorf hypothesis） 指出，语言结构会影响思维方式。虽然强版本（语言决定思维）已被主流否定，但弱版本（语言影响认知倾向）已有大量实证支持。

举个具体的例子：英语的时态系统迫使说话者在每一句话中标记时间关系（“I went / I go / I will go”），而中文没有强制性的形态时态标记。这意味着，英语语料天然地包含了更密集的时间信息编码，而中文语料中的时间信息是分散在语境和副词里的。

当你用混合语料训练一个模型时，它学到的”时间推理”能力，其实是被英语语料的结构特征所主导的。这就是为什么很多多语言模型在中文的时序推理任务上表现更弱——不是因为中文语料少，而是因为中文编码时间信息的方式与模型的学习路径不匹配。

类似的例子还有很多：日语的敬语系统编码了复杂的社会等级关系，阿拉伯语的词根-词模（root-pattern）形态学编码了高度结构化的语义派生规则，它们各自携带着独特的“认知基础设施”。多语言训练不是”多加几种语言的数据”，而是在融合多套底层不同的世界模型。

如果你正在做与大模型相关的产品，以下几点值得认真思考：

第一，招标注员时，考虑招几个语言学背景的人。 他们对语用规范、语义歧义、语境依赖的敏感度，是纯技术背景的标注员很难具备的。一个懂语用学的标注员，能直觉地判断”这个回答哪里不对劲”——那个”不对劲”往往不是事实错误，而是语用失当。

第二，设计 prompt 模板时，借鉴话语分析的框架。 不要只想”我要模型输出什么”，要想”我在构建一个什么样的对话情境”。角色、权力关系、共享知识、会话目标——这些语用参数的设定，比关键词的选择重要得多。

第三，评估模型质量时，不要只看”对不对”，还要看”得不得体”。 格赖斯的合作原则是一个很好的评估框架。一个回答可以在事实上完全正确，但在数量准则（太啰嗦或太简略）或方式准则（组织混乱）上严重违规——用户体验一样会很差。

第四，对多语言能力保持清醒。 不要用英语的思维框架去评估中文模型的表现。中文有中文的语用逻辑、语义结构和信息组织方式，好的中文模型不应该是”会说中文的英文模型”，而应该是一个真正理解中文语用规范的模型。

结语

大模型的训练，表面上是一个工程问题——数据清洗、模型架构、训练策略、对齐方法。但在这些工程决策的底层，几乎每一个关键选择都有一个对应的语言学问题。

语言学研究了几千年的人类语言规律，不应该只是 NLP 论文里的一段 Related Work。它应该成为每一个做大模型产品的人的基础素养——不需要你成为语言学家，但你至少要知道，你手里这个模型，处理的不是”文本数据”，而是人类认知与文化最精密的编码系统。

本文由 @卜小原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

卜小

人人都应该学习使用AI

2篇作品 1739总阅读量

互联网嬗变，催生金融科技新变革

02-063074 浏览

短视频是精神鸦片吗？

12-016859 浏览

抖音入局，外卖上演新三国杀

02-177807 浏览

3D HMI设计：开创未来驾驶体验的新篇章

08-074173 浏览

淘宝首秀销售额破亿，东方甄选“脱抖入淘”是必然

09-033592 浏览

目前还没评论，等你发挥！