揭露Claude底层代码:顶级AI公司却在用“古董”技术?
在AI技术日新月异的今天,Claude的代码泄露揭示了一个令人意外的真相——顶级AI公司的情绪识别模块竟在使用古老的正则表达式。这种看似简陋的技术背后,隐藏着工程思维的精髓:用最简单的方法解决非核心问题。本文将带你深入剖析正则表达式在AI系统中的巧妙应用,以及这对整个行业认知的颠覆性启示。

最近在claude的代码里,我发现了一个很有意思的地方。
claude的情绪识别,用的是正则表达式。
没错。不是什么复杂的深度学习模型,不是什么精妙的神经网络架构,而是一套诞生于上世纪50年代的文本匹配规则。
这玩意程序员用了几十年,简单到可以说是”古董”级别的技术。
我第一反应是:就这?
但冷静下来想想,这件事背后的东西,比任何高深算法都值得琢磨。
正则表达式到底是什么?
先给不了解的朋友简单解释一下。
正则表达式,本质上就是一套文字搜索规则。
普通搜索:你搜”苹果”,只能找到”苹果”这两个字。
正则表达式:你可以写一条规则,一次性找到”苹果、香蕉、橙子、葡萄”所有水果名称。
再举个例子。你想从一篇长文章里找出所有电话号码。你不知道具体号码是什么,但你知道电话号码长什么样——连续11位数字。
用正则表达式写一条规则:“连续11位数字”,系统就会自动把所有符合这个模式的文字找出来。
它不聪明,但很听话。你让它找什么,它就找什么。
Claude是怎么用的?
泄露的代码显示,Claude在识别用户情绪时,用的就是这套”古董”技术。
具体来说,大概是这样的逻辑:
- 用户输入里有“谢谢”、“太棒了”、“完美” → 判定为正面情绪
- 用户输入里有“垃圾”、“废物”、“这什么玩意” → 判定为负面情绪
- 没有明显情绪词 → 判定为中性
就这么简单。
没有训练模型,没有语义分析,没有上下文理解。就是关键词匹配。
说实话,我一开始有点失望。
我一直以为,像Anthropic这种顶级AI公司,每个模块背后都是精密的算法设计、海量的数据训练、反复的模型迭代。
结果情绪识别这一块,用的是我大学一年级就学会的东西。
这个方法,好在哪里?
冷静下来之后,我开始理解为什么这么做。
第一,够用就行。
情绪识别在Claude的系统里,不是核心功能,而是辅助功能。它需要知道用户大概是什么情绪,但不需要100%精准。
你说”谢谢”,它判断你是正面情绪,这就够了。不需要分析你是真心感谢还是阴阳怪气。
正则表达式能做到80%的准确率,而且几乎不花计算资源。这就够了。
第二,快。
深度学习模型跑一次情绪分析,可能需要几百毫秒。正则表达式呢?几毫秒。
在海量对话的场景下,这个差距是巨大的。每条消息都省几百毫秒,累积起来就是几万小时的算力成本。
第三,可控。
模型会出错,而且出错了你很难知道为什么。但正则表达式出错了,你一看规则就知道问题在哪,改一下就行。
对大公司来说,可解释性和可维护性,有时候比准确率更重要。
这件事暴露了一个行业真相
我们这些做AI的人,包括我自己,经常陷入一个误区:
以为技术越复杂越好。
看到别人用深度学习,我们也用。看到别人上大模型,我们也上。好像不用最新的技术,就不够专业。
但Claude这次泄露的代码告诉我们:真正的高手,是知道什么时候该用简单方法的人。
能用规则解决的问题,别上模型。 能用小模型解决的问题,别上大模型。 能用正则解决的问题,别上深度学习。
这不是偷懒,这是工程思维。
对我们普通人有什么启发?
如果你和我一样,是个AI行业的从业者或者深度用户,这件事至少能让我们想清楚两件事:
第一,别被“高大上”的名词唬住。
AI听起来很厉害,但拆开来看,里面可能有很多你意想不到的”简单”组件。正则表达式、if-else判断、简单的规则引擎……这些东西不酷,但好用。
下次遇到一个AI产品,别只看它用了什么模型,也看看它在”不那么重要”的地方用了什么方法。那里往往藏着真正的工程智慧。
第二,追求实用,而不是炫技。
不管你是用AI还是做AI,核心问题永远是:这件事用什么方法解决最划算?
不是最新最强的方法,而是性价比最高的方法。
有时候答案是大模型,有时候答案就是几行正则表达式。
写在最后
这件事也让我有了新的认知。
原来顶级不是什么都用最好的,而是知道什么该用好的,什么该用简单的。
情绪识别用正则,不是寒酸,是精明。
把昂贵的资源留给真正重要的地方,把简单的方法用在不需要复杂的场景。这才是大公司做事的方式。
本文由 @周周粥粥 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
- 目前还没评论,等你发挥!

起点课堂会员权益




