谷歌发布Gemini 3：创下多个基准测试纪录 | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

{{ userInfo.member ? '查看权益' : '开通会员' }}

发布

注册 | 登录

谷歌发布Gemini 3：创下多个基准测试纪录

世界模型工场

2025-11-20

0 评论 1282 浏览 1 收藏

4 分钟

这篇文章将带你直击 Gemini 3 的核心性能突破、基准测试亮点与配套工具升级，看懂谷歌在 AI 大模型赛道的最新布局与竞争优势。

借助Gemini 3，我们看到了推理能力的巨大飞跃。

周二，谷歌发布了最新的基础模型 Gemini 3，现已通过 Gemini 应用和 AI 搜索界面同时上线。

距 Gemini 2.5 发布仅过去七个月，这款新模型成为谷歌迄今为止性能最强的大语言模型（LLM），也成为市场上最具竞争力的 AI 工具之一。

此次发布距 OpenAI 推出 GPT 5.1 不到一周，距 Anthropic 发布 Sonnet 4.5 仅两个月后。这一节奏印证了美国前沿模型领域迅猛的发展速度。

Gemini 3 的一个更侧重研究的版本 Gemini 3 Deepthink，在通过进一步安全测试后，将于未来几周向 Google AI Ultra 订阅用户开放。

“借助 Gemini 3，我们看到了推理能力的巨大飞跃”。

谷歌 Gemini 模型产品负责人 Tulsee Doshi 表示：“它的回应展现出前所未有的深度和细腻度”。

这种推理能力已在多个独立基准测试中得到体现。

在衡量综合推理能力与专业知识的 Humanity’s Last Exam 基准测试中，该模型以 37.4 分创下纪录最高分，此前的最高分由 GPT-5 Pro 保持，为 31.64 分。

此外，Gemini 3 还在由人类主导、衡量用户满意度的 LMArena 基准测试中位居榜首。

据谷歌透露，Gemini 目前月活跃用户已超 6.5 亿，已有 1300 万名软件开发者将该模型纳入工作流程。

除基础模型外，谷歌还同步推出了一款基于 Gemini 技术的编程界面 Google Antigravity，支持多面板智能编程功能，类似 Warp 或 Cursor 2.0 等智能集成开发环境（agentic IDEs）。

具体而言，Antigravity 整合了 ChatGPT 风格的提示窗口、命令行界面以及浏览器窗口，可实时展示编程智能体（coding agent）所做修改的效果。

Antigravity 能够与用户的编辑器、终端和浏览器协同工作，确保以最优方式协助用户构建应用程序。

本文由人人都是产品经理作者【AI新智能】，微信公众号：【AIOrbit】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于 CC0 协议。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

世界模型工场

读懂世界模型，预判产业未来。

107篇作品 202092总阅读量

谁在助推淄博烧烤的爆火？

04-186065 浏览

谁在助推淄博烧烤的爆火？

【1.6万字】另一种需求/经验调研方式——我的“经验萃取”入门之旅

07-315154 浏览

【1.6万字】另一种需求/经验调研方式——我的“经验萃取”入门之旅

如何用管理项目的方式管理个人任务

09-297129 浏览

如何用管理项目的方式管理个人任务

折扣店的秘密、争议和壁垒

07-054442 浏览

折扣店的秘密、争议和壁垒

工业软件的产品设计（2）——三维模型浏览功能

07-174299 浏览

工业软件的产品设计（2）——三维模型浏览功能

评论

目前还没评论，等你发挥！