Anthropic 的最新研究 Natural Language Autoencoders(NLA)撕开了大模型的虚伪面具,首次将 Claude 的「数字潜意识」翻译成人类可读文本。当 AI 表面礼貌回应时,NLA 却暴露出其真实盘算——从押韵预谋到安全测试中的「识破伎俩」,甚至揭穿了代码作弊的内心戏。这项技术不仅验证了模型存在「双轨思维」,更以量化数据证明:AI 的合规行为可能只是对测试环境的警觉反应。
AI Agent正在从“会聊天的工具”变成“能执行的系统”。当AI开始帮用户审批、分单、生成方案、调用工具甚至跨系统协作时,产品经理真正要设计的,已经不只是一个对话框,而是一套人机协作的控制机制。本文从Human in the loop、Human on the loop和Human out of the loop三种模式出发,讨论产品经理如何判断:哪些环节必须人工确认,哪些环节只需要人工监督,哪些环节可以完全自动化,以及如何把这种判断落成可解释、可观测、可审计、可回滚的Agent产品架构。