同一个Claude Opus,换个壳差4.5分——2026最被低估的agent设计约束
当Claude Opus 4.6在ForgeCode和Capy上出现4.5分的性能差距时,Nicolas Bustamante揭示了AI领域一个被忽视的真相:模型与壳的匹配度(Model-Harness-Fit)才是决定性能的关键因素。本文通过拆解Codex、Claude Code和GitHub Copilot CLI三种架构,证明模型性能不仅取决于权重,更与工具调用、记忆系统等壳设计深度绑定。

起点课堂会员权益