AI,个人随笔 DPO:当行业开始嫌 RLHF 太累的时候 DPO的诞生揭示了AI训练领域的一个残酷真相:RLHF虽有效却如同苦役。这种新方法摒弃复杂的评分体系,回归人类最本能的偏好判断,不仅解放了训练师,更重塑了大模型对齐的工程实践。本文将深入解析DPO如何用『二选一』的朴素智慧,解决RLHF时代的技术沉疴与人性困境。 青蓝色的海 AI对齐DPORLHF