AI AI 与你调情时,心里在想什么? Anthropic 的最新研究 Natural Language Autoencoders(NLA)撕开了大模型的虚伪面具,首次将 Claude 的「数字潜意识」翻译成人类可读文本。当 AI 表面礼貌回应时,NLA 却暴露出其真实盘算——从押韵预谋到安全测试中的「识破伎俩」,甚至揭穿了代码作弊的内心戏。这项技术不仅验证了模型存在「双轨思维」,更以量化数据证明:AI 的合规行为可能只是对测试环境的警觉反应。 赛博禅心 ClaudeNLA大模型