多模态 | 人人都是产品经理

交互体验

时隔八年，再谈人机交互设计

从命令行到自然语言交互，人机交互设计正经历革命性跃迁。本文系统梳理交互设计六大核心维度——可用性、易用性、耐用性、艺术性、体验与场景，揭示AI时代下错误预防机制、多模态融合、健康设计等前沿趋势，并附赠完整技术路径思维导图，为产品人提供下一代交互设计的完整方法论框架。

率剑士

AI交互交互设计产品方法论

AI,个人随笔

现阶段很多人都在卷各类 Agent 自动化。但说实话，大部分产品真到了实际业务场景，经常连个最基础的后台配置按钮都找不明白。我们总觉得是模型智商不够、推理掉链子，但很少有人意识到，它其实是眼睛"瞎"了。这篇文章不聊虚的算法架构，就想结合我自己在多模态项目里的踩坑经历，聊聊幕后的 AI 训练师到底是怎么给 Agent 装上"眼睛"的，以及为什么多模态下半场的胜负手，早就变成了谁的数据生产体系更硬核。

L.NaN

AI Agent GUI 个人观点

AI,个人随笔

用 MiniMax 把 M3 跑了几天，我对国产开源模型的判断

MiniMax M3的发布不仅刷新了国产开源模型的性能上限，更关键的是它首次将长上下文、Agentic Coding和原生多模态三大核心能力整合在单一模型中，彻底改变了AI工作流的拼接架构。本文从实际应用场景出发，深入剖析M3如何通过1/20的计算成本突破，让曾经因成本过高而搁置的产品方案重获商业可行性，同时揭示开源生态可能面临的重新洗牌。

阿铭Ziven

AI工作流 Minimax 多模态

AI

Gemini 3.5：谷歌的 Agentic 时代宣言，我们该怎么接？

Google I/O 2026 彻底颠覆了AI行业的游戏规则，Gemini 3.5 Flash 以惊人的性能突破重定义模型选型标准，Omni Flash 的全模态能力在B端静默治理中展现真实价值，Antigravity 2.0 等基础设施让Agent从概念走向量产。本文深度解析谷歌如何通过技术组合拳推动Agentic Era落地，为从业者提供关键的场景适配思路与商业化路径。

冒泡泡

Agentic AI AI基础设施 Gemini

AI

Gemini 3.5 发布｜Google I/O 2026 全整理

Google I/O 2026以「agentic era」为主题，带来了一场AI技术盛宴。从Gemini 3.5 Flash的速度突破到Omni多模态世界模型，从Antigravity 2.0的agent开发平台到Gemini Spark私人助理，Google正在重塑AI生态。本文深度解析9大产品矩阵如何重构搜索、电商、创意工具与科研边界，揭示下一代AI基础设施的竞争逻辑。

赛博禅心

AI应用 Gemini google

AI

世界模型的门槛，谷歌可能迈过去了

Google 即将发布的 Gemini Omni 视频模型正在颠覆行业认知。两条泄露视频展示出惊人的多模态协调能力：数学推导过程的符号推理、手部动作的空间关系、语音与板书的时序同步完美融合，更在刚体与柔性体交互上突破物理模拟瓶颈。这可能是首个逼近'世界模型'的AI产品，或将重构内容创作链路与生态竞争格局。

世界模型工场

AI应用 Gemini google

AI,个人随笔

从AI训练师视角看谷歌1.4万人大测：调医疗SFT，不如加个结构化问诊流程试试

谷歌最新Fitbit盲测报告揭示：健康咨询类大模型的准确率提升关键不在模型本身，而在于输入信息的完整性。研究发现，用户自由输入与结构化问诊的准确率差距高达27%，凸显了训练数据与实际输入的脱节问题。本文深度解析3个高效训练策略，从输入对齐到多模态数据利用，再到模型边界设定，帮助AI训练师避开常见误区，实现真正有效的模型优化。

冒泡泡

AI训练 Fitbit google

AI,个人随笔

DeepSeek「开眼」了，但你可能想多了

DeepSeek 识图模式的灰度测试悄然上线，虽非外界期待的原生多模态，却在基础视觉理解上展现了不俗实力。从 OCR 提取到文化背景推理，这款产品的视觉模块正试图在巨头林立的 AI 战场突围。当字节、阿里、Kimi 纷纷亮出多模态王牌时，DeepSeek 能否凭借性价比优势后发制人？

沃垠AI

AI应用 DeepSeek 多模态

AI

DeepSeek首次有了视觉能力，技术论文却被它连夜删掉了

DeepSeek 通过视觉基元技术重新定义多模态推理边界，其灰度测试的视觉能力展现出原生思考特性而非简单图像识别。这款模型用点、框、路径坐标作为认知锚点，在迷宫求解、网页复刻等场景实现精准空间推理。技术论文《Thinking with Visual Primitives》的突然撤稿更引发行业对其突破性进展的猜测。

硅星人

AI应用 DeepSeek 基础研究

AI,个人随笔

DeepSeek正在内测多模态

DeepSeek的「识图模式」内测曝光，多模态能力即将迎来关键突破。从流出的测试案例来看，这款AI不仅能精准识别画面中的主体对象、细节与空间关系，还展现出罕见的自我校验能力。若视觉模块如期上线，将彻底改变DeepSeek在Agent时代的竞争格局——这不仅是功能补全，更是获取AI基建入场券的战略动作。

沃垠AI

AI产品 DeepSeek 功能分析

AI,个人随笔