"RLHF"相关的文章
AI
AI产品经理必修课:从“半成品”到“杀手级应用”——深度解析后训练(Post-training)

AI产品经理必修课:从“半成品”到“杀手级应用”——深度解析后训练(Post-training)

2025年AI领域最深刻的变化,不是算力的军备竞赛,而是后训练技术的战略崛起。从SFT塑造产品人格、RLHF量化用户体验,到推理模型实现System 2思考,本文以卡帕西的经典理论为框架,揭示AI产品经理如何将原始模型雕琢成商业产品。这不仅是技术解码,更是一份从'数据贵族化'到'工具路由'的实战指南。
AI,个人随笔
总结:模型为什么越来越像人,而你为什么会在意这一点

总结:模型为什么越来越像人,而你为什么会在意这一点

大模型的每一次进化,背后都是人类经验的深度编码。从预训练的基础语言理解,到SFT的行为规范,再到RLHF的情感分寸,这条技术链的本质是人类如何将自己的沟通逻辑、价值判断和社交规则系统化地注入AI。本文将揭示大模型训练过程中那些看不见的人类‘脚手架’,以及它们如何塑造AI的行为边界与人格特质。