"多模态"相关的文章
交互体验
时隔八年,再谈人机交互设计

时隔八年,再谈人机交互设计

从命令行到自然语言交互,人机交互设计正经历革命性跃迁。本文系统梳理交互设计六大核心维度——可用性、易用性、耐用性、艺术性、体验与场景,揭示AI时代下错误预防机制、多模态融合、健康设计等前沿趋势,并附赠完整技术路径思维导图,为产品人提供下一代交互设计的完整方法论框架。
AI,个人随笔
后台截图一扔,你的Agent是不是也傻眼了

后台截图一扔,你的Agent是不是也傻眼了

现阶段很多人都在卷各类 Agent 自动化。但说实话,大部分产品真到了实际业务场景,经常连个最基础的后台配置按钮都找不明白。我们总觉得是模型智商不够、推理掉链子,但很少有人意识到,它其实是眼睛"瞎"了。这篇文章不聊虚的算法架构,就想结合我自己在多模态项目里的踩坑经历,聊聊幕后的 AI 训练师到底是怎么给 Agent 装上"眼睛"的,以及为什么多模态下半场的胜负手,早就变成了谁的数据生产体系更硬核。
AI,个人随笔
用 MiniMax 把 M3 跑了几天,我对国产开源模型的判断

用 MiniMax 把 M3 跑了几天,我对国产开源模型的判断

MiniMax M3的发布不仅刷新了国产开源模型的性能上限,更关键的是它首次将长上下文、Agentic Coding和原生多模态三大核心能力整合在单一模型中,彻底改变了AI工作流的拼接架构。本文从实际应用场景出发,深入剖析M3如何通过1/20的计算成本突破,让曾经因成本过高而搁置的产品方案重获商业可行性,同时揭示开源生态可能面临的重新洗牌。
AI
Gemini 3.5:谷歌的 Agentic 时代宣言,我们该怎么接?

Gemini 3.5:谷歌的 Agentic 时代宣言,我们该怎么接?

Google I/O 2026 彻底颠覆了AI行业的游戏规则,Gemini 3.5 Flash 以惊人的性能突破重定义模型选型标准,Omni Flash 的全模态能力在B端静默治理中展现真实价值,Antigravity 2.0 等基础设施让Agent从概念走向量产。本文深度解析谷歌如何通过技术组合拳推动Agentic Era落地,为从业者提供关键的场景适配思路与商业化路径。
AI
Gemini 3.5 发布|Google I/O 2026 全整理

Gemini 3.5 发布|Google I/O 2026 全整理

Google I/O 2026以「agentic era」为主题,带来了一场AI技术盛宴。从Gemini 3.5 Flash的速度突破到Omni多模态世界模型,从Antigravity 2.0的agent开发平台到Gemini Spark私人助理,Google正在重塑AI生态。本文深度解析9大产品矩阵如何重构搜索、电商、创意工具与科研边界,揭示下一代AI基础设施的竞争逻辑。
AI
世界模型的门槛,谷歌可能迈过去了

世界模型的门槛,谷歌可能迈过去了

Google 即将发布的 Gemini Omni 视频模型正在颠覆行业认知。两条泄露视频展示出惊人的多模态协调能力:数学推导过程的符号推理、手部动作的空间关系、语音与板书的时序同步完美融合,更在刚体与柔性体交互上突破物理模拟瓶颈。这可能是首个逼近'世界模型'的AI产品,或将重构内容创作链路与生态竞争格局。
AI,个人随笔
从AI训练师视角看谷歌1.4万人大测:调医疗SFT,不如加个结构化问诊流程试试

从AI训练师视角看谷歌1.4万人大测:调医疗SFT,不如加个结构化问诊流程试试

谷歌最新Fitbit盲测报告揭示:健康咨询类大模型的准确率提升关键不在模型本身,而在于输入信息的完整性。研究发现,用户自由输入与结构化问诊的准确率差距高达27%,凸显了训练数据与实际输入的脱节问题。本文深度解析3个高效训练策略,从输入对齐到多模态数据利用,再到模型边界设定,帮助AI训练师避开常见误区,实现真正有效的模型优化。
AI
DeepSeek首次有了视觉能力,技术论文却被它连夜删掉了

DeepSeek首次有了视觉能力,技术论文却被它连夜删掉了

DeepSeek 通过视觉基元技术重新定义多模态推理边界,其灰度测试的视觉能力展现出原生思考特性而非简单图像识别。这款模型用点、框、路径坐标作为认知锚点,在迷宫求解、网页复刻等场景实现精准空间推理。技术论文《Thinking with Visual Primitives》的突然撤稿更引发行业对其突破性进展的猜测。
AI,个人随笔
DeepSeek正在内测多模态

DeepSeek正在内测多模态

DeepSeek的「识图模式」内测曝光,多模态能力即将迎来关键突破。从流出的测试案例来看,这款AI不仅能精准识别画面中的主体对象、细节与空间关系,还展现出罕见的自我校验能力。若视觉模块如期上线,将彻底改变DeepSeek在Agent时代的竞争格局——这不仅是功能补全,更是获取AI基建入场券的战略动作。
AI
AI录音笔,何以搅动半壁科技圈?

AI录音笔,何以搅动半壁科技圈?

在AI硬件普遍遇冷的背景下,AI录音笔却逆势崛起,成为科技巨头和创业公司争相布局的赛道。从技术落地到市场验证,再到生态入口的争夺,这款看似传统的设备为何能成为AI硬件的“试金石”?本文将深入解析AI录音笔背后的技术逻辑、市场反馈与战略价值,揭示这一细分领域如何成为大模型时代的关键入口。