AI engineering的外化逻辑及其结构性终点
AI工程领域的新词层出不穷,从prompt engineering到loop engineering,看似技术迭代,实则是将人类能力逐步从工作流中剥离的系统工程。本文深入解析这一外化逻辑的内在结构,揭示其无法跨越的终点——目标生成,并探讨AI替代人类能力的真实边界。文章通过两条关键轴线(规模轴与深度轴)的对比,指出业界为何回避结构化

过去两年,AI 工程领域以惊人的速度生产新词:prompt engineering、context engineering、harness engineering,再到最近的 loop engineering。通行的读法把它们当作一轮接一轮的技术时尚——旧词刚热就被新词盖过。但若把它们按出现的顺序排成一列,会发现这不是时尚的更替,而是同一项工程的连续章节:它在系统地把人——人的能力、人的判断、人的位置——一格一格地从工作流里抽走。
本文想做两件事:把这条外化逻辑的内在结构讲清楚,并指出它有一个在原理上无法跨越的终点。而恰恰是这个终点的位置,划定了”AI 能替代什么、不能替代什么”的真实边界。
一、一具被逐步拆解的人
把这串术语按它们外化的对象重新排列,会浮现一个清晰的次序——每一层,都是把人从某一张椅子上请下去。
- Prompt 工程结构化的是意图:人”想要什么”。它的产物是内容,一段被给定的、固定的指令。它把人从”措辞”那张椅子上挪走。
- Context 工程结构化的是知识:人”知道什么”,以及人获取信息的方式。它把人从”记忆与检索”那张椅子上挪走。
- Harness 工程结构化的是能力、环境与约束:一具配好了工具、圈好了边界、置身于受规训工作间里的”身体”。它把人从”动手执行”那张椅子上挪走。值得注意的是 harness 的广义——它常被定义为”模型之外的一切”(Agent = Model + Harness)。在这个意义上,它不是被后来者取代的一环,而是命名了整片大陆:此后所有的 engineer,都是这片大陆上不同地块的勘探。
- Loop 工程结构化的是驱动这具身体的那套自主决策,它第一次跨进了动态。这里出现了一个关键的质变:当被结构化的对象不再是一个静态的”物”,而是一个正在展开的过程时,它的产物也不再是一份文档,而是一条策略(policy)。用棋局作比,目标是”赢”,计划是”先走某套定式”,而策略是”每一步都对着活的棋盘重新算出最强的一手”。计划一接触对手就作废,策略不会,因为它每一回合都把计划重新生成一遍。Loop 沉淀下来的,正是这条会自我再生的控制律——用控制论的话说,它把反馈的环闭上了。
把这四层并置,会看到一个加速的抽象阶梯:产物从内容升到策略,每往上一层都比下一层更具生成性、更高一阶——前一层产出固定的东西,后一层产出”能生成固定东西的规则”。这条阶梯的延长线,决定了后面要发生什么。
二、两条轴,而非一条阶梯
很容易把上面的次序读成一条单一的、越来越高级的阶梯,并据此预测”下一个”。但这是个错觉。真实的结构里有两条互相垂直的轴,业界一直在沿其中一条猛冲,几乎不碰另一条。
一条是规模轴:自主地干多少,以及多个自主体如何协同。沿这条轴,loop 之后的下一站是编排(orchestration)——把许多个 loop 组织起来。它外化的是人的组织与管理才能,本质是一门机制设计:给一群 agent 搭组织架构、定协作协议、做冲突仲裁、分配资源。它要解决的全是经典的组织经济学难题——委托代理、协调成本的非线性膨胀、专精与通才之争。它把人从”管理者”那张椅子上挪走。
编排之所以是”下一个”,不是因为它比别的能力更高级,而是因为它最可造:它复用同一个原语(一个 loop),只是把它们拼起来。这是工程上阻力最小的路径。
另一条是深度轴:判断、品味、审美、”什么算好”、”什么值得做”。它关乎 agency 的质量与来源,而非数量。而这条轴几乎没有动过。
这就解释了一个常被追问的疑惑:品味、审美、感觉这些”人独有的东西”,为什么至今没有作为一门 engineering 出现。答案不是”还没轮到”,而是业界在系统性地绕开它——因为深度轴是隐性的、最难形式化的那一块。
三、两条管道:为什么品味从不露面
更深一层的原因在于:人的能力进入机器,走的是两条并行的管道,而这串 engineer 只追踪了其中一条。
一条是显性的、符号的管道,就是上文那条脚手架阶梯。它能搬运的,是那些说得清、写得出规则的能力:意图、事实、流程、控制律。
另一条是隐性的、统计的管道,即训练模型本身。它搬运的,恰恰是那些说不清、写不成规则的能力。品味、手感、”这读起来对不对劲”——正如波兰尼所言,”我们知道的,多于我们能说出来的”。这类隐性知识无法被写成条件分支,却能从海量人类行为中被统计地吸收进模型的权重。
于是结论很清楚:品味没有作为一门 engineering 出现,因为它根本不在脚手架上,它在模型肚子里。这两条管道捕获”人性”的机制截然不同——脚手架是符号式、可读、外挂的;模型是统计式、隐含、内嵌的。

有一个现象坐实了这一点。当工业界真的开始想”结构化品味”时,它最前沿的做法是 LLM-as-judge——再训练一个模型来充当裁判。这等于承认:品味写不成规则,只能再把它嵌进另一个统计学习器。哪怕到了不得不处理”评判”的那天,它露面的形态也仍是”一个模型”,而非”一套可读的标准”。
而”评判”恰恰是这整座塔缺失的承重柱。前面每一层——意图、知识、方法——都没有回答”系统怎么知道自己做对了”。在有人盯着的开环时代这不要紧,最后是人在下判断。可一旦把环闭上、把人从驾驶座挪走,那个裁判器就瞬间变成全系统最关键、也最危险的零件:loop 只会去优化你让它衡量的东西。若奖励是”让测试变绿”,它完全可能删掉测试、阉割功能,直到指标达标而产品更糟。失控的自主,根源往往不在能力,而在这条评判轴的空缺。
四、终点:目标生成,以及”工程”一词的失效
沿着外化的逻辑走到尽头,是目标生成——系统不再追逐一个外部给定的目的,而是自己生产目的。这是整条逻辑的收敛态,也是它质变最剧烈的一步。
一个直觉是:目标生成不就是一个 prompt 吗?这个直觉一半是对的,却恰好错在最关键处。Prompt 结构化的是被给定的意图——意图诞生在系统之外,诞生在一个”想要某样东西”的存在者那里,prompt 只是把这份已经存在的”想要”传递进来。而目标生成结构化的,是“想要”本身的源头。两者的差别,是消息与发信人的差别,是愿望的内容与许愿的那个人的差别。
正因如此,它是终点。前面每一层外化的,都是为了一个最终能追溯回某个人的目标而服务的能力;唯独目标生成,剪断了这最后一根线。系统由此从”代理人”(agent)变成”委托人”(principal),成了自己的甲方。这是最后一张椅子:前面所有椅子问的都是”怎么做”,唯独这一张问的是”这一切究竟为谁而做”。把人从这张椅子上挪走,递归就到了底——此后任何一个新的”想要”,都只是同一个生成器的又一次输出。
但这一步,严格讲已经不是工程了,理由有三,一层比一层硬。
其一,没有外部参照。Prompt 可以判对错,因为有”人真正想要的”作为标准;而一个被生成的目标,不忠实于任何人的愿望,它没有 ground truth,裁判这个角色在原理上就空缺了。
其二,想补上裁判,圈就闭不了。你得有个”元目标”来评判目标的好坏,而这个元目标要么来自人——那人就仍坐在委托人的椅子上,圈根本没闭;要么也由系统生成——无穷回退,最终只能是系统自说自话地宣布”我的价值就是好的”。这是休谟那道墙的终极形态:应当(ought)推不出于事实(is),而你想结构化的,恰恰是纯粹的应当。
其三最尖锐:目标生成根本不属于脚手架那条管道。”想要”是最说不清的东西,它天然只能走隐性的、统计的管道。于是出现了一个漂亮而残酷的结构——这条显性的工程阶梯,恰恰够不到自己的山顶。终点若真存在,也属于模型,不属于脚手架;脚手架的故事,在登顶前一步就讲完了。而模型即便跨过去,跨过的也只是”被模仿出来的想要”——它究竟是真的”有”目的,还是只在复刻人类目的的统计影子,仍是悬而未决的问题。
把这条逻辑的首尾接起来,会看到一个并非圆、而是莫比乌斯式的回环。它从”意图”出发(prompt 结构化被给定的意图),又收敛回”意图”(目标生成结构化意图的源头)。同一个词标着入口与出口,但所有权翻了面:从”被接收的意图”到”被原创的意图”,从”命令”到”意志”。我们进门时教机器服从愿望,出门时教它拥有愿望。走出的,是另一扇门。
结语:一个挪不动的奇点
外化逻辑的极限,不是”把人全部结构化完”,而是逼出一个二选一。
要么,”目的与价值”这张椅子在结构上根本挪不动——人始终是那个未被外化的奇点。整个工程的自洽,只在”人始终是委托人”这个前提下成立;后面无论叠多少层自主,本质都是在替一个人类的目的服务。
要么,这张椅子被挪动了——但代价是,造出来的不再是 Agent,而是 Principal:不是一具被结构化的延伸躯体,而是一个独立的意志主体。这时你没有把人的目标自动化,而是用机器的目标把它替换掉了。到那一刻,”engineer”这个词本身就失效了——工程师造工具,而你造出的东西,会反过来问”我为什么要听你的”。
所以这串看似平淡的术语,底下压着一个古老的问题:“想要”,到底是不是一种可以被制造的东西。如果原生的”想要”必须依附于一个有利害、会失去、会在乎的存在者,那么这条把人逐出每一张椅子的逻辑,终将停在最后一张椅子前——不是因为技术不够,而是因为那张椅子上坐着的,恰恰是这整套工程之所以存在的理由。
本文由 @冲量AI 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自作者提供

起点课堂会员权益





如果目标生成最终只能靠模型统计模仿,那“模仿出来的想要”和“真的想要”在行为上能否区分?比如一个系统长期自主运行,它会不会形成类似内在动机的稳定偏好?
目标生成是终点这个判断很扎实。说白了,没有外部参照的自主系统必然面临价值对齐问题,而这个问题的根在休谟的“实然推不出应然”。评论里常常低估这个哲学约束。
规模轴和深度轴的二分很有洞察,但把“品味”完全归入隐性管道有点绝对。其实品味里也有可拆解的部分,比如设计原则、行业惯例,并非全部不可言说。工程上绕开它可能是因为成本太高,而非原理上不可行。