你以为大模型在学语言?不,它在重新发明语言学
大模型的训练远非简单的数据工程,而是一场与语言学深度交织的认知革命。从索绪尔的语言系统到格赖斯的语用准则,从分布式语义到多语言认知陷阱,本文以语言学为手术刀,剖开大模型运作的底层逻辑。产品经理需要重新理解:模型对齐实质是语用共识的编码,提示工程本质是语境框架的构建,而幻觉问题则暴露了语义指称的缺失。当AI开始处理人类最精密的认知编码系统时,语言学不再是学术装饰,而是产品设计的必修课。

一、一个根本性的误解:大模型并不是在”学语言”
行业里有一种根深蒂固的说法——”大模型通过海量语料学会了语言”。这句话听起来合理,但从语言学角度看,它几乎每个字都值得商榷。
语言学家索绪尔在一百多年前就区分了 langue(语言系统) 和 parole(言语行为)。语料库里装的全是 parole——人们说过的话、写过的字。而 langue,那套驱动所有言语行为的底层规则系统,从来不会显式地出现在任何一段文本里。
这就引出了一个深刻的问题:大模型从来没有接触过”语言”本身,它只接触过语言的产物。 就像一个人从未见过棋盘和棋子,只看过几百万盘棋的棋谱记录,却要从中”悟出”围棋规则。大模型干的就是这件事——而且,它似乎干成了。
这本身就是对乔姆斯基“刺激贫乏论”(刺激的贫穷)的一次反驳实验。乔姆斯基认为,儿童接触的语言数据太有限、太嘈杂,不可能仅凭数据归纳出语法,所以人类必须有先天的语言能力。但大模型用一种暴力美学的方式证明了:如果数据量足够大,统计归纳确实可以逼近语法能力。
当然,”逼近”和”等同”之间,还隔着一整个语言学。
二、语言训练的本质:不是”教模型说话”,而是”压缩人类的语用共识”
很多产品经理或运营同学在接触模型训练(尤其是 SFT 和 RLHF)时,会简单地理解为“教模型说人话”。但如果你懂一点语用学(pragmatics),就会发现这个过程远比“说人话”复杂。
语言学家格赖斯(Grice)提出了著名的合作原则,包含四条准则:质量准则(说真话)、数量准则(信息量恰当)、关联准则(相关)、方式准则(清晰有条理)。
你再看看 RLHF 训练中人类标注员在干什么——他们在评估模型的回答是否真实、充分、相关、清晰。这不就是格赖斯准则的操作化吗?
也就是说,RLHF 的本质,是在把人类社会几千年来默认遵守的语用共识,用偏好信号的方式写入模型的参数里。 标注员以为自己在做”质量标注”,但从语言学的角度看,他们其实在充当”语用规范的编码器”。
这也解释了为什么不同文化背景的标注团队训练出的模型”气质”不同——因为合作原则的权重分配本身就是文化相关的。英语语境偏爱直接、精确(方式准则权重高),而中文语境常常允许更多隐含意义和留白(关联准则更灵活)。训练数据和标注偏好里隐藏的,是整个语用文化的基因。
三、Prompt Engineering 的语言学真相:你在跟模型玩一场“语用博弈”
为什么同样的问题,换一种问法,模型的回答质量天差地别?很多人把这归结为”模型的理解能力不稳定”。但语言学给出了更精准的解释。
语言学中有一个概念叫预设(presupposition)。当你问”你什么时候不再犯这个错误?”,这个问题预设了”你一直在犯错”。模型对预设高度敏感——prompt 中的每一个措辞选择,都在暗暗设定语境框架。
另一个核心概念是言语行为理论(Speech Act Theory)。Austin 和 Searle 告诉我们,说话不只是传递信息,而是在“做事”——请求、命令、承诺、宣告。当你写 prompt 说“请帮我分析一下”,你执行的是一个请求行为,模型会用较为谦逊和辅助性的语气回应。但如果你写”你是一个资深分析师,请给出你的专业判断”,你在执行一个角色指派+命令行为,模型的回应方式会截然不同。
所以,Prompt Engineering 的实质,不是在“给模型下指令”,而是在构建一个微型的语用场景——你在定义角色关系、预设共识、会话目标、信息权力结构。 这完全是一个语用学和话语分析的问题域。
那些写出好 prompt 的人,未必懂技术,但一定有极强的语言直觉。他们天然理解:同样的信息,不同的语境框架会催生不同的话语策略。
四、为什么模型会”一本正经地胡说八道”?从语义学找答案
大模型的“幻觉”问题(hallucination)是行业痛点。技术圈习惯从概率分布的角度解释:模型生成了高概率但事实错误的 token 序列。这没错,但它只描述了现象,没有解释根源。
语言学提供了一个更根本的视角:大模型的语义系统是“分布式语义”(分布语义),而非“指称式语义”(指称语义)。
什么意思?人类的语言有一个关键能力叫“指称”(参考)——“北京”这个词指向现实世界中一个具体的城市。但大模型没有任何“指向现实”的通道,它所理解的“北京”,只是“北京”这个 token 与其他 token 的共现关系网络。
语言学家弗雷格(Frege)早在 1892 年就区分了 Sinn(涵义) 和 Bedeutung(指称)。大模型拥有极其丰富的 Sinn——它知道“北京”和“首都”“故宫”“雾霾”的关系,但它没有 Bedeutung——它不知道“北京”指向一个有经纬度、有两千万人口的真实城市。
幻觉的根源,不是模型”算错了”,而是它在一个没有指称锚点的语义空间里自洽地推演。它的每一句话在语义关系上都说得通,但在真值条件(truth condition)上可能完全错误。
这也意味着,单纯靠扩大数据量或增强推理能力,无法根治幻觉。你需要给模型接入”现实接口”——搜索引擎、知识图谱、传感器数据——本质上是在为它补上缺失的”指称层”。
五、多语言训练的隐秘陷阱:语言不只是”换一套编码”
很多团队在做多语言模型时,把不同语言当成”同一种信息的不同编码”。这是一种危险的简化。
语言学中的 萨丕尔-沃尔夫假说(Sapir-Whorf hypothesis) 指出,语言结构会影响思维方式。虽然强版本(语言决定思维)已被主流否定,但弱版本(语言影响认知倾向)已有大量实证支持。
举个具体的例子:英语的时态系统迫使说话者在每一句话中标记时间关系(“I went / I go / I will go”),而中文没有强制性的形态时态标记。这意味着,英语语料天然地包含了更密集的时间信息编码,而中文语料中的时间信息是分散在语境和副词里的。
当你用混合语料训练一个模型时,它学到的”时间推理”能力,其实是被英语语料的结构特征所主导的。这就是为什么很多多语言模型在中文的时序推理任务上表现更弱——不是因为中文语料少,而是因为中文编码时间信息的方式与模型的学习路径不匹配。
类似的例子还有很多:日语的敬语系统编码了复杂的社会等级关系,阿拉伯语的词根-词模(root-pattern)形态学编码了高度结构化的语义派生规则,它们各自携带着独特的“认知基础设施”。多语言训练不是”多加几种语言的数据”,而是在融合多套底层不同的世界模型。
如果你正在做与大模型相关的产品,以下几点值得认真思考:
第一,招标注员时,考虑招几个语言学背景的人。 他们对语用规范、语义歧义、语境依赖的敏感度,是纯技术背景的标注员很难具备的。一个懂语用学的标注员,能直觉地判断”这个回答哪里不对劲”——那个”不对劲”往往不是事实错误,而是语用失当。
第二,设计 prompt 模板时,借鉴话语分析的框架。 不要只想”我要模型输出什么”,要想”我在构建一个什么样的对话情境”。角色、权力关系、共享知识、会话目标——这些语用参数的设定,比关键词的选择重要得多。
第三,评估模型质量时,不要只看”对不对”,还要看”得不得体”。 格赖斯的合作原则是一个很好的评估框架。一个回答可以在事实上完全正确,但在数量准则(太啰嗦或太简略)或方式准则(组织混乱)上严重违规——用户体验一样会很差。
第四,对多语言能力保持清醒。 不要用英语的思维框架去评估中文模型的表现。中文有中文的语用逻辑、语义结构和信息组织方式,好的中文模型不应该是”会说中文的英文模型”,而应该是一个真正理解中文语用规范的模型。
结语
大模型的训练,表面上是一个工程问题——数据清洗、模型架构、训练策略、对齐方法。但在这些工程决策的底层,几乎每一个关键选择都有一个对应的语言学问题。
语言学研究了几千年的人类语言规律,不应该只是 NLP 论文里的一段 Related Work。它应该成为每一个做大模型产品的人的基础素养——不需要你成为语言学家,但你至少要知道,你手里这个模型,处理的不是”文本数据”,而是人类认知与文化最精密的编码系统。
本文由 @卜小 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
- 目前还没评论,等你发挥!

起点课堂会员权益




