模型对齐 | 人人都是产品经理

AI,个人随笔

训练一个”懂事”的 AI：SFT 和 RLHF 到底在做什么？

AI能回答你的问题，却总是答非所问？从博学的'续写机器'到贴心的智能助手，中间差了SFT和RLHF两道关键工序。本文将深入拆解这两大核心技术如何让AI学会'听话'和'懂事'，揭示13亿参数小模型如何靠对齐能力碾压1750亿巨无霸的底层逻辑，带你穿透AI产品'不好用'的本质。

AI助手 AI训练 DPO