个人随笔 豆包“包圆”互联网 字节跳动发布的豆包 1.8通用agent模型,标志着其从手机助手向PC端及更多智能设备扩展的重大进步。该模型不仅能理解多模态信息、执行复杂任务,还能实现跨设备协同操作,为用户提供前所未有的便捷体验。尽管面临来自应用开发商的阻力,豆包 1.8展示了AI agent在重塑互联网流量入口方面的巨大潜力。 字母榜 AgentAI产品产品分析
AI,个人随笔 AI发展的三种未来观 AI的发展轨迹正在引发前所未有的行业震动与职业焦虑。从指数级跃升的多模态生成能力,到逐步渗透的流程自动化,再到遭遇瓶颈的长尾场景突破,三种可能的未来正在不同领域同步上演。本文将深度拆解AI替代的临界点、行业渗透路径与技术天花板,帮助从业者精准定位自身所处的变革坐标。 产品哲思 AI应用个人观点发展趋势
AI,个人随笔 Gemini 3 Flash:AI 基础设施的性价比拐点与技术深度解析 Gemini 3 Flash的发布正在颠覆AI行业的成本逻辑。这款Google DeepMind最新模型以博士级推理能力与基础设施级价格的惊人组合,实现了90%商业场景的无缝覆盖。从动态计算架构到原生视频理解,我们将深度解析它如何破解智能产品的「不可能三角」。 像素呼吸 AI产品GeminiGoogle DeepMind
AI GPT-5.2 发布:信息全整理 GPT-5.2的发布标志着AI能力的又一次飞跃,三个版本各有所长:Instant快如闪电,Thinking专攻深度任务,Pro版则是解决难题的终极武器。在AIME 2025斩获满分、GDPval测试中74.1%任务超越人类专家,这款模型不仅在代码、长文档处理上大幅提升,更以11倍于人类的速度重塑工作流程。价格虽涨40%,但效率提升让总成本更低。 灵山下的小妖怪 AI模型GPT-5代码生成
AI,个人随笔 AI×IP:一场关于“可计算内容”的产业革命正在发生 在多模态AI与全球文娱产业融合的背景下,IP的生产方式正在经历根本性变革。AI技术的进步使得IP创作、生产与分发从人力驱动转向算法驱动,行业变革的关键已从中腰部公司转向工具层与场景层。 极新 AI技术IP经济多模态
AI,个人随笔 Gemini Generative UI 深度分析(一):基于谷歌官方博客与研究团队论文的初步介绍 Gemini 3 的重大更新不仅带来了更强大的智能,还解锁了全新的 Generative UI 界面,能够根据用户需求即时构建可交互的界面。本文将深入解析这一创新功能的技术实现及其对未来交互方式的深远影响。 游游的产品笔记 AI交互Gemini产品分析
AI 生成式UI+多模态融合:Gemini 3如何重塑人机交互未来 Gemini 3的发布标志着人机交互从对话迈向共同创造的新纪元。其原生多模态能力与硬件调用,让用户能以自然语言生成交互界面,在教育、娱乐、企业服务等领域实现即时定制。本文深度解析技术底座与应用场景,探讨生成式UI如何降低创造门槛,释放无限想象力。 进化之家BRN Gemini产品分析人机交互
产品设计 AI+财税:多模态财税问答系统项目方案书 在财税数字化转型的浪潮中,AI 不再只是工具,而是重塑业务逻辑的核心力量。本文聚焦多模态财税问答系统的方案设计,旨在探索如何以智能化交互提升效率、降低风险,并为企业构建更具前瞻性的财税管理体系。 敏尔说财税 AI应用多模态经验分享
AI 抢占VQA多模态风口:产品经理的场景挖掘与产品创新价值转化指南 在AI多模态浪潮席卷而来的当下,VQA(视觉问答)正成为产品创新的新高地。面对这一技术风口,产品经理如何从场景出发,挖掘真实需求、构建差异化价值,并实现从技术亮点到商业落地的跃迁?本文将以系统化视角,拆解VQA的产品机会地图,助你在多模态时代占领先机。 产智AI 城南 VQA创新价值场景挖掘
AI 多模态文生图 / 文生视频模型:应用、训练与规则维度全景解析 文生图、文生视频模型不只是“生成能力”的升级,更是“表达机制”的系统跃迁。本文系统梳理多模态模型在应用、训练与规则维度的全景路径,帮助产品人理解如何在“能力边界”与“合规表达”之间构建新的认知闭环,实现从“能生成”到“能落地”的跃迁。 Xyu 多模态大语言模型技术原理
AI 刚刚,小红书开源了首个多模态大模型dots.vlm1,性能直追SOTA! 两个月内连发三弹,小红书今天把「看懂世界」的大招也开源了!全新多模态大模型 dots.vlm1 基于 12 亿参数自研视觉编码器 + DeepSeek V3,色盲图、数独、高考数学题、李白风格写诗统统拿下,视觉推理直逼 Gemini 2.5 Pro,代码已全量公开,实测惊艳到尖叫! 新智元 产品分析多模态小红书
AI 多模态都是假的:最强模型数不清手指、认不出雷碧 把六指图喂进“最强”多模态模型,它依然坚称只有五根手指;让它认“雷碧”,也会被文字带偏。作者用一连串实测拆穿幻象:模型并非“看见”,只是高维概率复读机。数据偏差、任务粒度、长尾缺失才是幻觉根源。认清边界,才能补数据、改架构,把 AI 真正用在刀刃上。 叶小钗 产品评估多模态大模型