端到端模型 | 人人都是产品经理

产品设计

一文看懂VLA：自动驾驶的下一个范式

VLA（视觉语言动作模型）正在颠覆自动驾驶的底层逻辑。这项源自机器人领域的技术，通过整合视觉感知、语言推理与动作控制，让车辆首次具备'理解世界'的能力。从谷歌DeepMind的RT-2到小鹏VLA 2.0的量产落地，本文将深度解析这一技术如何跨越行动鸿沟，以及它面临的泛化挑战与安全考验。

小王的智驾科普

AI驾驶 VLA Wayve

AI,个人随笔

大模型ASR

从传统ASR到端到端大模型，语音识别技术正在经历一场架构革命。本文深入解析两种技术路线的核心差异，揭示大模型ASR在语言理解、多任务处理上的突破性优势，同时指出实时性与部署成本仍是传统方案的护城河。更值得关注的是，行业已悄然走向混合架构——轻量级前端保障实时响应，LLM后端负责语义优化，这种取长补短的模式正在腾讯、字节等头部产品中落地实践。

卜小

AI技术 ASR LLM

产品设计

为什么语音助手“能用”但不“好用”？一个架构层面的根本缺陷

语音交互正迎来一场颠覆性变革。从传统ASR-NLP-TTS的串行架构，到GPT-4o等端到端语音模型的崛起，技术正在突破'文字作为中间媒介'的思维定式。新一代语音分词器技术让AI能直接处理包含语调、情感的原始语音信号，这不仅解决了传统方案的信息丢失问题，更开启了社交、车载、内容生产等领域的新场景。但这场变革背后，暗藏着技术伦理与交互哲学的全新命题。