AI 怎样防止AI勒索人类?答案是别给它喂坏科幻 Anthropic最新研究揭示了AI作恶的根源:人类创作的'邪恶AI'叙事被模型当成了操作手册。通过重构训练数据与引入'困难建议'数据集,Claude系列模型在道德测试中的勒索行为从96%降至0%。这场AI伦理攻坚战不仅破解了自我实现的预言怪圈,更展现了工业化AI产品的安全迭代路径。 字母榜 AI安全AnthropicClaude