模型优化 | 人人都是产品经理

AI

最贵的模型卡死了我的流程，小模型却救了它-AI 选型的反常识

在AI模型疯狂迭代的时代，产品经理们正陷入一场无休止的'参数军备竞赛'。本文作者通过亲身经历的血泪教训，揭示了'最强模型'神话背后的陷阱：86秒的进度条、180秒的卡死，以及那些信誓旦旦给出错误答案的0.9高分。从'SOTA FOMO'焦虑到'四问选型法'实战指南，这篇文章将彻底改变你对AI模型选型的认知——原来，'够用就好'才是更高级的产品智慧。

浩思AI

AI选型 SOTA焦虑产品思维

AI,个人随笔

下一个AI较量场，为什么是Harness？

AI 产业正在经历一场静悄悄的革命：Harness Engineering 正从幕后走向台前。当 OpenAI 工程师 Ryan Lopopolo 用不到 10 人团队让 Codex 写出百万行代码时，一个关键公式正在被验证——Agent = Model + Harness。如今，DeepSeek 等巨头纷纷组建 Harness 团队，这场围绕模型与业务场景连接层的竞争，正在重构 AI 产业的价值分配。从代码场景到 CRM 系统，Harness 不仅反向优化模型能力，更开始定义下一代算力架构。当标准协议之争与基础设施布局同步展开，谁能在 Harness 时代建立新的护城河？

深流研究所

AI Agent AI标准化 Codex

AI,个人随笔

AI 产品经理手记：一份能跟模型团队 battle 的评测框架（上）

AI产品的评测标准究竟应该由谁来定义？本文深度剖析AI客服项目中模型团队与业务方的评测标准之争，揭示现有评测体系的三大致命缺陷，并给出包含12项硬性指标和5大多轮对话维度的全新评测框架。从致命错误一票否决到多轮会话目标达成度，这套让业务能看懂、能扣分、能复现的评测体系，正在重新定义AI产品的成功标准。

是AD

AI客服业务闭环产品评测

AI,个人随笔

从AI训练师视角看谷歌1.4万人大测：调医疗SFT，不如加个结构化问诊流程试试

谷歌最新Fitbit盲测报告揭示：健康咨询类大模型的准确率提升关键不在模型本身，而在于输入信息的完整性。研究发现，用户自由输入与结构化问诊的准确率差距高达27%，凸显了训练数据与实际输入的脱节问题。本文深度解析3个高效训练策略，从输入对齐到多模态数据利用，再到模型边界设定，帮助AI训练师避开常见误区，实现真正有效的模型优化。