AI,个人随笔 简单三步,搭建一个真正对业务有用的 AI 大模型测评框架 Amazon首席应用科学家Eugene Yan提出的三步测评法正在重塑AI产品的质量评估体系。从人工标注到LLM评审对齐,再到自动化测评框架搭建,这套方法不仅解决了传统测评的高成本痛点,更让团队得以实现每周上百次的实验迭代。本文将深入解析如何在二元标签设计、失败样本构造、位置偏差消除等关键环节实现高效可靠的模型测评。 AI产品泡腾片 AI模型LLM产品测评
AI,个人随笔 深度解析 Claude Skills:从“提示词工程”到“能力应用商店” Claude Skills的推出标志着AI协作进入全新纪元,它将零散的对话指令转化为持久化、模块化的数字能力资产,彻底解决了AI在企业级应用中的健忘、知识分散和输出不一致三大痛点。这一创新设计不仅让AI具备了领域专家的执行逻辑,更通过渐进式披露机制实现了惊人的Token效率,为AI从通用工具向专业数字员工的蜕变铺平了道路。 北辰 AgentAI协作Claude
AI 别再手动搬运竞品动态了!我用 3 小时手搓了一个“AI 情报工厂”,效率直接提升 70% AI正在彻底重构产品经理的竞品分析工作流。本文通过实战案例揭秘如何用3小时搭建AI Skill,实现情报自动收集、智能去重与深度洞察,节省70%重复劳动时间。从Python脚本预处理到LLM语义分析,带你掌握从"数据泥潭"到"战略决策"的关键跃迁。 Junliu AI自动化LLMPython脚本
AI AI产品经理必读,DeepSeek最新论文:当AI学会不思考,一个改变游戏规则的发现 DeepSeek的最新研究揭示了AI架构设计的重大突破:通过引入条件记忆模块,让AI学会区分需要深度思考的复杂问题和可直接检索的固定知识。这项技术不仅将事实查询响应速度提升至近乎瞬时,更意外地释放了模型的推理潜力——记忆模块接管基础模式识别后,注意力机制能专注全局理解,使长文本处理和多步骤推理能力获得质的飞跃。本文从产品视角深入解析这一架构革新如何重构AI系统的效率边界。 Blues AI产品经理DeepSeekLLM
AI AI不是灵丹妙药,治不了大公司的“未来焦虑症” AI浪潮席卷企业两年后,内部落地为何仍是难题?大模型的私域知识缺失、企业数据基建的落后与组织架构的僵化,构成了AI应用的三大死穴。本文从内部系统PM视角,犀利剖析AI项目在企业中‘雷声大雨点小’的深层原因,揭示那些被技术乐观主义掩盖的残酷现实。 范佳玉 AI应用LLMRAG
AI 对话即洞察:AIPM 如何重构非结构化数据的分析范式? 当AI产品的交互从GUI转向LUI,传统漏斗模型正面临全面失效。一位独立开发者通过500用户产品的真实案例,揭示了会话时长暴涨背后的『数据陷阱』——用户停留越久可能意味着体验越糟。本文深度拆解AI时代的数据分析困局,并提出重构评估体系的『数据洋葱模型』,为AIPM提供从SRR指标到意图聚类的实战方法论。 浩思AI AI产品LLM产品方法论
AI,个人随笔 “与AI无障交流”——2026提示词技巧(上) 提示工程已从直觉技巧蜕变为一门严谨学科,GPT-5、Claude 4.5与Gemini 3等模型正推动AI代理系统向自主规划、多模态交互进化。本文深度拆解会话模式与产品导向模式的差异,揭示temperature、top_p等核心参数的实战用法,并提供少样本提示、元提示等12种进阶技巧的工业级解决方案。 LULAOSHI AI代理ClaudeGemini
AI 别再死磕 Workflow 了!Agent Skills 正在终结 AI 开发的“低代码”时代 AI开发正面临一场思维革命——当开发者们深陷低代码平台的连线迷宫时,行业巨头们已经转向更先进的模块化能力架构。本文深度解析从Workflow编排到Agent Skills的范式转移,揭示Anthropic、OpenAI和微软如何通过能力封装重塑AI开发逻辑,并探讨产品经理在这场变革中需要掌握的全新能力框架。 丢丢 AgentAI开发LLM
AI,个人随笔 每天学一点AI知识:从预测性AI到自主性智能体 Google最新发布的《Introduction to Agent》揭示了AI发展的革命性方向——从被动响应到主动思考的智能体(Agent)时代。本文将深入解析Agent的核心构成、能力分级及应用场景,带你了解这种能自主规划、执行复杂任务的新型AI形态如何重塑产品设计思维。 宇智波冰 AgentAI产品LLM
AI 深度解读大语言模型 (LLM) 训练全链路,看这篇文章就够了! ChatGPT等通用大语言模型为何在专业场景频频'翻车'?本文将深度剖析LLM从'全能博士生'到'资深老员工'的蜕变之路,揭示数据驱动的微调训练如何为AI注入行业灵魂,并提供从数据构建到模型选择的完整落地方法论。 浩思AI AI微调ChatGPTLLM
AI 从“预测下一个字”到“预判下一秒”:世界模型如何重写 AI 产品法则? 大语言模型(LLM)的强大能力正在改变AI产品生态,但它无法理解物理世界的尴尬同样明显。当AI助手难以规划一个简单的书房布局时,我们意识到LLM本质上是'文本概率游戏',缺乏对现实世界的理解和常识推理。这篇文章将揭示LLM的局限性,并探讨世界模型(World Model)如何为AI装上'轮子和引擎',从'概率鹦鹉'进化成'具身智能体',真正理解物理世界的运行规律。 火火 AI产品LLM世界模型
AI,个人随笔 重要的事说三遍,Google最新研究:重复指令,让廉价模型“白嫖”出推理能力 Google Research的最新研究颠覆了AI领域的产品设计常识:在Prompt中重复核心指令竟能显著提升普通大模型的逻辑表现。本文深度解析这种'复读机模式'的底层机制,并提炼出三大实战技巧,教你如何用'清晰的冗余'在成本与准确性之间找到最佳平衡点。 产品不正经 AI优化googleLLM