AI,个人随笔 多模态大模型与 AI 落地:从技术到实战的完整路径 多模态大模型正在重新定义AI与人类交互的方式。从基础的图像识别到高级的跨模态推理,多模态技术为医药、教育等垂直场景带来全新解决方案。本文将深度解析多模态技术的三个能力层次、四大核心技术模块,并分享AI产品落地的实战方法论与药企考试系统案例,为AI产品经理提供从技术理解到工程落地的完整指南。 许与 AI产品VLM产品方法论
个人随笔 自动驾驶2.0时代已至:VLA与VLM如何重塑出行? 自动驾驶正在经历从感知到决策的质变飞跃。最新涌现的VLA和VLM技术不仅让车辆'看见'世界,更赋予其人类般的思考与行动能力。本文将深度解析这两种模型的差异与演进,揭秘它们如何攻克长尾场景、实现人车共驾,并推动汽车与机器人产业的跨界融合。 OpenAIer VLAVLM具身智能
个人随笔 从文字模型到世界模型!Meta新研究让AI Agent理解物理世界 Meta新发布的开放词汇体验问答(OpenEQA)基准,旨在衡量AI Agent对物理空间的理解能力,但目前AI Agent的水平,还是无法与人类媲美。 新智元 AI AgentEQAMeta