"基准测试"相关的文章
AI
Gemini 3.1 Pro:发布48小时后的真实世界,大模型竞技场的“冰火两重天”

Gemini 3.1 Pro:发布48小时后的真实世界,大模型竞技场的“冰火两重天”

Google Gemini 3.1 Pro 的发布不仅是一场技术迭代,更是一记战略重拳。这款专为科学研究和复杂工程设计的旗舰模型,通过突破性的 Deep Think 机制和系统2思维模式,在抽象推理和专业知识测试中碾压对手。然而,48小时后开发者社区的猛烈炮火,暴露了其在交互设计和代码执行上的致命短板。这场技术与现实的碰撞,正在撕开AI军备竞赛最残酷的真相面纱。