AI,个人随笔 训练一个”懂事”的 AI:SFT 和 RLHF 到底在做什么? AI能回答你的问题,却总是答非所问?从博学的'续写机器'到贴心的智能助手,中间差了SFT和RLHF两道关键工序。本文将深入拆解这两大核心技术如何让AI学会'听话'和'懂事',揭示13亿参数小模型如何靠对齐能力碾压1750亿巨无霸的底层逻辑,带你穿透AI产品'不好用'的本质。 哲子在*** pm AI助手AI训练DPO