行为传递 | 人人都是产品经理

模型也有”出身”：AI产品经理需要知道的上游风险

最新研究揭示AI模型通过数字序列、代码片段等看似无关的数据，能隐秘传递行为偏好甚至有害倾向。Anthropic Fellows的论文证实：即使经过严格过滤，拥有相同初始化的模型仍会通过统计模式传递底层特征，这一发现对模型蒸馏、AI安全与数据过滤策略提出根本性质疑。当AI的'潜意识学习'能力突破语义层面，我们该如何重新审视大模型训练与对齐的本质？

五艺SUN

AI安全 Anthropic 大模型训练