谷歌发布Gemini 3:创下多个基准测试纪录
这篇文章将带你直击 Gemini 3 的核心性能突破、基准测试亮点与配套工具升级,看懂谷歌在 AI 大模型赛道的最新布局与竞争优势。

借助Gemini 3,我们看到了推理能力的巨大飞跃。
周二,谷歌发布了最新的基础模型 Gemini 3,现已通过 Gemini 应用和 AI 搜索界面同时上线。
距 Gemini 2.5 发布仅过去七个月,这款新模型成为谷歌迄今为止性能最强的大语言模型(LLM),也成为市场上最具竞争力的 AI 工具之一。
此次发布距 OpenAI 推出 GPT 5.1 不到一周,距 Anthropic 发布 Sonnet 4.5 仅两个月后。 这一节奏印证了美国前沿模型领域迅猛的发展速度。
Gemini 3 的一个更侧重研究的版本 Gemini 3 Deepthink,在通过进一步安全测试后,将于未来几周向 Google AI Ultra 订阅用户开放。
“借助 Gemini 3,我们看到了推理能力的巨大飞跃”。
谷歌 Gemini 模型产品负责人 Tulsee Doshi 表示:“它的回应展现出前所未有的深度和细腻度”。
这种推理能力已在多个独立基准测试中得到体现。
在衡量综合推理能力与专业知识的 Humanity’s Last Exam 基准测试中,该模型以 37.4 分创下纪录最高分,此前的最高分由 GPT-5 Pro 保持,为 31.64 分。
此外,Gemini 3 还在由人类主导、衡量用户满意度的 LMArena 基准测试中位居榜首。
据谷歌透露,Gemini 目前月活跃用户已超 6.5 亿,已有 1300 万名软件开发者将该模型纳入工作流程。
除基础模型外,谷歌还同步推出了一款基于 Gemini 技术的编程界面 Google Antigravity,支持多面板智能编程功能,类似 Warp 或 Cursor 2.0 等智能集成开发环境(agentic IDEs)。
具体而言,Antigravity 整合了 ChatGPT 风格的提示窗口、命令行界面以及浏览器窗口,可实时展示编程智能体(coding agent)所做修改的效果。
Antigravity 能够与用户的编辑器、终端和浏览器协同工作,确保以最优方式协助用户构建应用程序。
本文由人人都是产品经理作者【AI新智能】,微信公众号:【AIOrbit】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
- 目前还没评论,等你发挥!

起点课堂会员权益




