AI,个人随笔 为什么 AI 终于开始“边做边看?”从 SpatialClaw 看 Agent 设计的下一个十年 英伟达 SpatialClaw 以 59.9% 的准确率刷新空间推理 benchmark,背后却是一个简单却颠覆性的设计:让 VLM 在持久 Python 内核中边写代码边验证。这一突破不仅跨越模型架构与任务类型,更揭示了 AI 交互设计的致命盲区——当工具间能自由『对话』时,模型潜力将得到根本性释放。 枝酒 AI交互设计Python内核SpatialClaw
个人随笔 一文看懂VLM:自动驾驶里那个会看图说话的AI 自动驾驶技术正经历从模块化到端到端,再到VLM与VLA的演进。VLM(视觉语言模型)为自动驾驶带来了革命性的理解能力,不仅能识别路况,还能进行高级推理并解释决策逻辑。然而其行动鸿沟问题催生了双系统分工、训练阶段介入与模型压缩三大工业解法。本文将深度拆解VLM如何赋能自动驾驶系统,以及技术路线如何走向更高级的VLA形态。 小王的智驾科普 AI模型VLM技术演进
AI,个人随笔 多模态大模型与 AI 落地:从技术到实战的完整路径 多模态大模型正在重新定义AI与人类交互的方式。从基础的图像识别到高级的跨模态推理,多模态技术为医药、教育等垂直场景带来全新解决方案。本文将深度解析多模态技术的三个能力层次、四大核心技术模块,并分享AI产品落地的实战方法论与药企考试系统案例,为AI产品经理提供从技术理解到工程落地的完整指南。 许与 AI产品VLM产品方法论
个人随笔 自动驾驶2.0时代已至:VLA与VLM如何重塑出行? 自动驾驶正在经历从感知到决策的质变飞跃。最新涌现的VLA和VLM技术不仅让车辆'看见'世界,更赋予其人类般的思考与行动能力。本文将深度解析这两种模型的差异与演进,揭秘它们如何攻克长尾场景、实现人车共驾,并推动汽车与机器人产业的跨界融合。 OpenAIer VLAVLM具身智能
个人随笔 从文字模型到世界模型!Meta新研究让AI Agent理解物理世界 Meta新发布的开放词汇体验问答(OpenEQA)基准,旨在衡量AI Agent对物理空间的理解能力,但目前AI Agent的水平,还是无法与人类媲美。 新智元 AI AgentEQAMeta