"后训练"相关的文章
AI
非技术背景,一文读懂大模型后训练(万字长文)

非技术背景,一文读懂大模型后训练(万字长文)

大模型的后训练都在训练些什么?sft、rl、ppo、lora、adapter,这些算法开发们口中的专属名词,都代表着什么意思?本文将尽可能从非技术角度,一文帮你读懂大模型后训练。 同时这也是继去年发布《非技术背景,一文带你读懂大模型》后,时隔一年多,推出的非技术系列第二篇文章啦。也确实看到大家对于此类非技术向讲解的科普文比较感兴趣,希望这篇新文章能一样受大家的喜欢。
AI
AI产品经理必修课:从“半成品”到“杀手级应用”——深度解析后训练(Post-training)

AI产品经理必修课:从“半成品”到“杀手级应用”——深度解析后训练(Post-training)

2025年AI领域最深刻的变化,不是算力的军备竞赛,而是后训练技术的战略崛起。从SFT塑造产品人格、RLHF量化用户体验,到推理模型实现System 2思考,本文以卡帕西的经典理论为框架,揭示AI产品经理如何将原始模型雕琢成商业产品。这不仅是技术解码,更是一份从'数据贵族化'到'工具路由'的实战指南。
大模型竞赛转向:决胜关键为何是“后训练”?

大模型竞赛转向:决胜关键为何是“后训练”?

当前,通用模型在产业落地中面临知识断层、难以对齐用户隐性偏好等难题,而后训练正是解决这些 “最后一公里” 问题的核心。业界已探索出 SFT+RL、纯 RL 等训练范式,MoE 模型、FP8 精度等技术也成为后训练的重要选择。本文解析后训练的关键价值、产业痛点及顶级玩家的实践路径,探讨其如何成为大模型价值释放的决胜场,以及云平台在其中的支撑作用。