"LLM"相关的文章
AI,个人随笔
告别人工智障:从“能聊天”到“能办事”,Agentic AI的座舱实战

告别人工智障:从“能聊天”到“能办事”,Agentic AI的座舱实战

从Chatbot到Agentic AI,智能座舱正在经历一场革命性的进化。2024年那些只能写诗画画的‘聊天机器车’已成过去式,真正的智能座舱需要具备感知、规划、行动三大能力的Agent。本文将深入剖析为什么‘能办事’的AI才是未来,并通过订餐场景的进化对比,揭示2026年智能座舱的终极形态——服务原子化、调用自动化的超级中控时代。
AI,个人随笔
从 DeepSeek R1 看推理模型:更强、更贵、更慢?

从 DeepSeek R1 看推理模型:更强、更贵、更慢?

2024年后的大模型分工趋势愈发明显,推理模型作为其中的关键一环,因其在多步骤、复杂问题上的稳定性而备受关注。本文深入剖析推理模型的本质、优劣势及应用场景,并以DeepSeek R1为例,揭示推理能力的训练路径与实现方法。从纯强化学习到SFT+RL的组合拳,再到蒸馏技术的低成本部署,带你全面理解推理模型的演进逻辑与实战价值。
AI,个人随笔
简单三步,搭建一个真正对业务有用的 AI 大模型测评框架

简单三步,搭建一个真正对业务有用的 AI 大模型测评框架

Amazon首席应用科学家Eugene Yan提出的三步测评法正在重塑AI产品的质量评估体系。从人工标注到LLM评审对齐,再到自动化测评框架搭建,这套方法不仅解决了传统测评的高成本痛点,更让团队得以实现每周上百次的实验迭代。本文将深入解析如何在二元标签设计、失败样本构造、位置偏差消除等关键环节实现高效可靠的模型测评。
AI,个人随笔
深度解析 Claude Skills:从“提示词工程”到“能力应用商店”

深度解析 Claude Skills:从“提示词工程”到“能力应用商店”

Claude Skills的推出标志着AI协作进入全新纪元,它将零散的对话指令转化为持久化、模块化的数字能力资产,彻底解决了AI在企业级应用中的健忘、知识分散和输出不一致三大痛点。这一创新设计不仅让AI具备了领域专家的执行逻辑,更通过渐进式披露机制实现了惊人的Token效率,为AI从通用工具向专业数字员工的蜕变铺平了道路。
AI
AI产品经理必读,DeepSeek最新论文:当AI学会不思考,一个改变游戏规则的发现

AI产品经理必读,DeepSeek最新论文:当AI学会不思考,一个改变游戏规则的发现

DeepSeek的最新研究揭示了AI架构设计的重大突破:通过引入条件记忆模块,让AI学会区分需要深度思考的复杂问题和可直接检索的固定知识。这项技术不仅将事实查询响应速度提升至近乎瞬时,更意外地释放了模型的推理潜力——记忆模块接管基础模式识别后,注意力机制能专注全局理解,使长文本处理和多步骤推理能力获得质的飞跃。本文从产品视角深入解析这一架构革新如何重构AI系统的效率边界。
AI
对话即洞察:AIPM 如何重构非结构化数据的分析范式?

对话即洞察:AIPM 如何重构非结构化数据的分析范式?

当AI产品的交互从GUI转向LUI,传统漏斗模型正面临全面失效。一位独立开发者通过500用户产品的真实案例,揭示了会话时长暴涨背后的『数据陷阱』——用户停留越久可能意味着体验越糟。本文深度拆解AI时代的数据分析困局,并提出重构评估体系的『数据洋葱模型』,为AIPM提供从SRR指标到意图聚类的实战方法论。
AI
别再死磕 Workflow 了!Agent Skills 正在终结 AI 开发的“低代码”时代

别再死磕 Workflow 了!Agent Skills 正在终结 AI 开发的“低代码”时代

AI开发正面临一场思维革命——当开发者们深陷低代码平台的连线迷宫时,行业巨头们已经转向更先进的模块化能力架构。本文深度解析从Workflow编排到Agent Skills的范式转移,揭示Anthropic、OpenAI和微软如何通过能力封装重塑AI开发逻辑,并探讨产品经理在这场变革中需要掌握的全新能力框架。