AI,个人随笔 大模型是如何被训练出来的?从预训练到后训练的一次性讲透 大模型从“学认字”到“学做人类偏好”的成长之路,是如何一步步训练出来的?本文带你了解从预训练到后训练的全过程,以及训练师在其中的关键作用。 青蓝色的海 AI应用产品分析后训练
个人随笔 大模型竞赛转向:决胜关键为何是“后训练”? 当前,通用模型在产业落地中面临知识断层、难以对齐用户隐性偏好等难题,而后训练正是解决这些 “最后一公里” 问题的核心。业界已探索出 SFT+RL、纯 RL 等训练范式,MoE 模型、FP8 精度等技术也成为后训练的重要选择。本文解析后训练的关键价值、产业痛点及顶级玩家的实践路径,探讨其如何成为大模型价值释放的决胜场,以及云平台在其中的支撑作用。 甲子光年 后训练大模型技术原理
个人随笔 RL 是 LLM 的新范式 随着人工智能技术的飞速发展,RL(强化学习)逐渐成为LLM(大型语言模型)提升智能的关键技术,而本文就深入探讨了RLHF(基于人类反馈的强化学习)在LLM发展中的重要性和应用。 海外独角兽 RLHF后训练大型语言模型(LLM)