个人随笔 大模型竞赛转向:决胜关键为何是“后训练”? 当前,通用模型在产业落地中面临知识断层、难以对齐用户隐性偏好等难题,而后训练正是解决这些 “最后一公里” 问题的核心。业界已探索出 SFT+RL、纯 RL 等训练范式,MoE 模型、FP8 精度等技术也成为后训练的重要选择。本文解析后训练的关键价值、产业痛点及顶级玩家的实践路径,探讨其如何成为大模型价值释放的决胜场,以及云平台在其中的支撑作用。 甲子光年 后训练大模型技术原理
个人随笔 RL 是 LLM 的新范式 随着人工智能技术的飞速发展,RL(强化学习)逐渐成为LLM(大型语言模型)提升智能的关键技术,而本文就深入探讨了RLHF(基于人类反馈的强化学习)在LLM发展中的重要性和应用。 海外独角兽 RLHF后训练大型语言模型(LLM)