"VLM"相关的文章
AI,个人随笔
为什么 AI 终于开始“边做边看?”从 SpatialClaw 看 Agent 设计的下一个十年

为什么 AI 终于开始“边做边看?”从 SpatialClaw 看 Agent 设计的下一个十年

英伟达 SpatialClaw 以 59.9% 的准确率刷新空间推理 benchmark,背后却是一个简单却颠覆性的设计:让 VLM 在持久 Python 内核中边写代码边验证。这一突破不仅跨越模型架构与任务类型,更揭示了 AI 交互设计的致命盲区——当工具间能自由『对话』时,模型潜力将得到根本性释放。
一文看懂VLM:自动驾驶里那个会看图说话的AI

一文看懂VLM:自动驾驶里那个会看图说话的AI

自动驾驶技术正经历从模块化到端到端,再到VLM与VLA的演进。VLM(视觉语言模型)为自动驾驶带来了革命性的理解能力,不仅能识别路况,还能进行高级推理并解释决策逻辑。然而其行动鸿沟问题催生了双系统分工、训练阶段介入与模型压缩三大工业解法。本文将深度拆解VLM如何赋能自动驾驶系统,以及技术路线如何走向更高级的VLA形态。
AI,个人随笔
多模态大模型与 AI 落地:从技术到实战的完整路径

多模态大模型与 AI 落地:从技术到实战的完整路径

多模态大模型正在重新定义AI与人类交互的方式。从基础的图像识别到高级的跨模态推理,多模态技术为医药、教育等垂直场景带来全新解决方案。本文将深度解析多模态技术的三个能力层次、四大核心技术模块,并分享AI产品落地的实战方法论与药企考试系统案例,为AI产品经理提供从技术理解到工程落地的完整指南。