一个”设计失败”的格式,凭什么成了 AI 的母语

0 评论 128 浏览 0 收藏 12 分钟

在AI时代,Markdown这个曾被技术圈视为设计失败品的标记语言,却成了ChatGPT、Claude等大模型的通用输出格式。它没有统一规范、功能孱弱,却意外成为人机交互的默契桥梁。本文深度剖析Markdown如何在训练数据优势、token经济规则和人性化设计的三重奏中,完成从技术弃儿到行业标准的逆袭,揭示AI时代技术演化的底层逻辑。

如果你最近经常用 AI,一定注意过一个细节:

不管是 ChatGPT、Claude、Gemini 还是 DeepSeek,它们吐出来的字,总是规规矩矩——大标题、小标题、加粗的重点、整齐的列表,层次分明得像被人精心排过版。

这不是巧合。它们用的是同一种”语言”,叫 Markdown。

有意思的地方在这儿:Markdown 在很多严肃的技术人眼里,是个设计上的失败品。它没有统一规范,同一份文件在不同软件里能渲染出不同的样子;它功能孱弱,原始版本连表格、删除线都不支持;它不优雅、不一致、不完备。一个追求确定性的工程师看它,简直像在看一场灾难。

可偏偏就是这么个”灾难”,赢了。

从 GitHub 上每个项目的说明文档,到程序员的笔记软件,再到今天全世界的大模型与人对话的默认格式——Markdown 成了事实上的标准。那些设计更严谨、能力更强大的对手,反倒一个个退居小众。

这就引出了一个真正值得琢磨的问题:一个技术上如此“糙”的东西,凭什么获得了压倒性的胜利?

答案,藏在 AI 时代特有的几条暗线里。

一、模型是”喝着 Markdown 长大的”

要理解 AI 为什么偏爱 Markdown,得先想清楚大模型是怎么”学会说话”的。

它不是被人手把手教语法的。它是把互联网上海量的文本一股脑读进去,从中自己摸索出语言的规律。而问题在于——这些高质量的文本,本身就大量是用 Markdown 写的。

GitHub 上数以亿计的项目说明、Stack Overflow 上的技术问答、各种技术文档站点……这些信息密度最高、最干净的语料,几乎全是 Markdown。大模型几乎是直接”读着” Markdown 长大的。

换句话说,Markdown 不是模型后天被要求使用的格式,而是它”母语”的一部分。当你问它一个问题,它用 Markdown 回答,就像一个在某种方言环境里长大的人,张口自然带那个味儿。

一个被忽略的强化环节

这里还有一个很多人没意识到的环节。在训练后期,人类标注员会给模型的回答打分。而结构清晰、排版利落的 Markdown 回答,往往更容易拿到高分。

你看,这就形成了一个闭环:训练数据里 Markdown 多 → 模型天然会用 → 人类觉得清晰好看 → 给高分 → 模型更爱用。

它不是被设计成这样的,它是被喂养、被奖励成这样的

二、每一个符号,都在省钱

如果说训练数据是”先天基因”,那 token 经济就是”后天的生存压力”。

这里得解释一个概念。大模型处理文字不是一个字一个字看,而是切成一个个叫”token”的小块来算。token 就是 AI 世界里的钱。 你每次调用 AI,输入多少 token、输出多少 token,直接对应着花多少钱、等多久。

而不同的格式,表达同样一份内容,要烧掉的 token 天差地别。

同一段内容,差出 80% 的成本

举个最直观的对比。同样一段带标题、列表的内容,用 HTML 写要套一堆尖括号标签,层层嵌套;而 Markdown 只用一个 #、一个 – 就解决了。对同样的内容,Markdown 比 HTML 最多能省下八成的 token。

这是什么概念?

Markdown 几乎没有格式上的浪费,每一个 token 要么是真正的内容,要么是 ##、- 这种极轻的结构标记。对一个每天要处理成千上万份文档的团队来说,把内容从 HTML 转成 Markdown,省下的就是实打实每月几百上千美元的账单。

更关键的是,token 省下来,腾出的空间能装进更多真正有用的信息。模型的”记忆窗口”是有限的,格式占的位置越少,留给内容的就越多——这意味着它一次能读更长的文章、参考更多的资料,回答也就更准。

省的不只是钱,是模型的”脑容量”。

三、它同时讨好了人和机器

前两条讲的是模型的偏好。但 Markdown 真正封神的地方,在于它解决了一个几乎无解的矛盾——怎么让一种格式,既让机器好读,又让人好读?

这事听起来简单,做起来极难。

为机器优化到极致的格式,比如 JSON、XML,人看着就头疼,满屏的括号和标签;为人优化到极致的,比如 Word 文档,机器解析起来又是一团乱麻——那些花哨的样式标记会塞进大量无用信息,把真正的内容稀释掉。PDF 更糟,它内部只存了字符的坐标,没有逻辑,遇到多栏排版和表格,机器读出来经常是乱序的。

Markdown 恰好卡在那个甜蜜的中间点。

一个 # 号,人一看就知道是标题,机器一读也明确知道这是层级最高的一块。一根竖线隔出来的表格,人扫一眼能看懂行列,机器也能顺着它做”列式推理”。它给了机器足够的结构信号,又没给人添任何阅读负担。

它的设计哲学,是”别打扰人写字”

Markdown 的核心价值,其实从来不是为机器服务,甚至也不是为了最终渲染出来好不好看。它真正优化的,是”写作过程”本身——把人在纯文本时代自然形成的排版习惯,做了最低限度的抽象。

这一点值得反复品。Markdown 的设计哲学,从来不是”做一个强大的标记语言”,而是”别打扰人写字”。你想写个标题,加个 #;想强调,打两个星号。这些符号本来就是人们在纯文本里习惯用的,它只是把这种习惯顺势固定了下来。

人觉得自然,机器觉得清晰。一份源文件,还能随手转成 PDF、Word、网页,真正做到”一次撰写,到处可用”。

它谁都没得罪,所以谁都接纳了它。

四、那它的”不规范”,难道不是问题吗?

讲到这儿,得诚实地回到开头那个矛盾:Markdown 确实不规范,确实有”方言”问题,同一份文件在不同地方可能长得不一样。这难道不该是致命伤吗?

恰恰相反。它的”失败”,反而成了它的活力来源。

正因为没有一个中心化的委员会把它锁死,生态里的强者就能通过实践来定义标准。最典型的就是 GitHub——它需要渲染项目文档,发现原始 Markdown 太弱,连表格都不支持,于是自己动手扩展。因为 GitHub 影响力够大,它的这套扩展迅速成了开发者世界里最主流的版本。

规范的缺失,换来了演化的自由。 它不是被设计得完美,而是被无数真实需求一点点磨合成了今天的样子。

2026 年,争论已经烧起来了

当然,这不代表 Markdown 是终点。

就在 2026 年,已经有 AI 公司的工程师公开提出:HTML 的信息密度远高于 Markdown,还能承载样式、图形、交互组件,或许更适合做 AI 的输出格式。”Markdown 已死,HTML 当立”的说法开始流传。也有人在捣鼓 TOON 这类新格式,专门为机器之间的通信压榨 token。

但目前看,结论依然清晰:Markdown 仍会是 AI 的核心工作格式,而 HTML 更多承担前台呈现的角色。一个负责”想清楚”,一个负责”秀出来”,各司其职。

五、写在最后:它赢的不是技术,是默契

回头看 Markdown 这场胜利,你会发现一个反直觉的真相:

在 AI 时代,决定一个东西能不能成为标准的,往往不是它有多强大、多严谨,而是它有多“省事”、多“自然”。

Markdown 没有惊艳的技术,没有完备的规范,甚至连个权威标准都没有。但它做对了一件最难的事——它同时站在了人和机器中间,让两边都觉得舒服。它不强迫人学习复杂语法,也不强迫机器做无谓解析。它轻,所以它快;它简单,所以它通用。

这或许也是 AI 时代给我们所有人的一个隐喻:未来真正的通用语,不属于最聪明的那个,而属于最能让人和机器达成默契的那个。

Markdown 只是恰好,先一步做到了。

本文由 @Luffy璐飞 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!