Google 即将发布的 Gemini Omni 视频模型正在颠覆行业认知。两条泄露视频展示出惊人的多模态协调能力:数学推导过程的符号推理、手部动作的空间关系、语音与板书的时序同步完美融合,更在刚体与柔性体交互上突破物理模拟瓶颈。这可能是首个逼近'世界模型'的AI产品,或将重构内容创作链路与生态竞争格局。
DeepSeek 通过视觉基元技术重新定义多模态推理边界,其灰度测试的视觉能力展现出原生思考特性而非简单图像识别。这款模型用点、框、路径坐标作为认知锚点,在迷宫求解、网页复刻等场景实现精准空间推理。技术论文《Thinking with Visual Primitives》的突然撤稿更引发行业对其突破性进展的猜测。