刚刚，谷歌杀疯了！Gemini 3 横扫全榜 | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

{{ userInfo.member ? '查看权益' : '开通会员' }}

发布

注册 | 登录

刚刚，谷歌杀疯了！Gemini 3 横扫全榜

灵山下的小妖怪

2025-11-19

0 评论 1401 浏览 3 收藏

8 分钟

Gemini 3 的横空出世，不只是一次技术迭代，而是谷歌在全球 AI 战局中的全面出击。它的表现，正在重塑智能体的边界，也让竞争格局骤然生变。

几小时前，谷歌扔下一枚核弹。

没错，是你们心心念念的Gemini 3。

当看到 LMArena 排行榜时，我直接惊呆了。

1501 分，有点离谱。

要知道，就在昨天，老马还在为Grok 4.1以 1483 分登顶而沾沾自喜。

然而，快乐不过 24 小时，就转移了。

真不愧是你啊，谷歌大王。

01｜Gemini 3 到底有多强？横扫！

和上周 OpenAI 的GPT-5.1 ，以昨天马斯克的Grok 4.1不同，谷歌直接掏出了Gemini 3 Pro全套基准测试结果。

这才是大版本更新应该有的底气。

同时，也说明谷歌是有多自信。

看完下面这张基准测试对比表，你就明白这份自信从何而来：

先说结论：

除了编程测试 SWE-Bench Verified，其他所有指标，Gemini 3 Pro 横扫全场。

在“人类最后一场考试”（Humanity’s Last Exam，HLE）这个博士级难度测试中，Gemini 3 Pro拿下了 37.5%。

感觉还好？

要知道这是不使用任何外部工具的纯推理成绩。

同样的条件下，GPT-5.1准确率 26.5%，而 Claude Sonnet 4.5更是只有 13.7%，太偏科了这个小老弟。

更夸张的是数学。

MathArena Apex包含 12 道从 2025 年全球顶级数学竞赛中精选的“地狱级”难题，难度堪比国际数学奥赛（IMO）的压轴题。

Gemini 3 Pro砍下 23.4% 的新纪录。

在这之前，其他模型基本都在 2% 以下挣扎。

Gemini 3 Pro其他碾压式的测试结果已经数不胜数。

即便在唯一“失利”的 SWE-Bench Verified 上，它也有 76.2%，仅比第一名Claude Sonnet 4.5 （77.2%）低 1%。

02｜疯狂的 Gemini 3

之前Gemini 3一直在憋一个大招，专攻前端开发。

这次，它真的来了。

在 WebDev Arena这个专门测试一句话生成网页能力的排行榜上，Gemini 3 Pro直接拿下 1487 的 Elo 综合分，再次碾压所有其他模型。

第二名是 GPT-5，仅得 1395 分。

整整超出了快 100 分！

更疯狂的是，谷歌同时发布了一个叫Google Antigravity的开发平台。

这不是普通的 AI IDE，而是一个多智能体协作的编程环境。

想象一下，你提需求，多个 AI Agents 同时在编辑器、终端和浏览器里协同工作，一个负责写代码，一个负责测试，一个负责优化。

这就像你突然有了一个完整的、24 小时待命的开发团队。

基于 Gemini 3 Pro，支持 MacOS、Windows 和 Linux，目前处于免费的预览阶段。

感兴趣的可以试一下。

可能遇到登录不上的情况，多试几次。

03｜秒杀级的多模态理解

聊回Gemini 3 Pro模型本身。

谷歌 Gemini 系列一直有两个王牌能力：超长上下文和原生多模态。

Gemini 3 Pro延续了2.5 Pro的100 万 tokens 上下文。

依然是最大的上下文窗口。

多模态也依旧无敌。

文本、图片、PDF、甚至是视频，Gemini 3 Pro都能直接解析，无需任何预处理。

在 ScreenSpot Pro这个测试理解屏幕界面的基准上，Gemini 3 Pro拿下 72.7% 的准确率。

GPT-5.1？3.5%（你没有看错）。

Claude 4.5稍微好一点，36.2%。

另一个小惊喜，谷歌为 Gemini 3 Pro增加了一个很实用的 API 参数：media_resolution。

你现在可以根据任务需要，动态调整它处理图片、文档或视频的精细度。

比如处理一份普通的 PDF 合同，用中等分辨率就够，560 个 tokens 搞定。

最后是小可爱们都关心的 API 价格。

很遗憾，谷歌这次没有对免费用户开放 Gemini 3 Pro API 使用权限。

但你仍然可以在 AI Studio 免费体验（只是不能调用 API 了）。

Gemini 3 ProAPI 价格比 2.5 Pro稍贵一丢丢：20 万上下文以内，每百万输入 tokens 2 美元，输出 12 美元；20 万上下文以上，每百万输入 tokens 4 美元，输出 18 美元。

这个价格比Claude 4.5 Sonnet 的 3 和 15 美元更有性价比。

物有所值。

04｜还有高手？！

看到这里，你是不是觉得 Gemini 3 Pro很强。

No no no，还有比它更强的：Gemini 3 Deep Think。

就是那个拿下国际数学奥赛金牌的 Gemini 2.5 Deep Think的升级版。

性能更强，但还没有发布。

谷歌官方说要进行更多安全评估，再等几周才对 Ultra 订阅用户优先开放。

结语

截至写这篇文章，Gemini 3 Pro已经在谷歌 AI Studio、Gemini 网页端、Gemini App（慢于网页端）同步上线。

免费可用。

首推谷歌 AI Studio，免费额度更高，模型都是满血，可玩性也更强。

不得不说，属于谷歌的 AI 时代，来了。

本文由 @灵山下的小妖怪原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于cc0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

灵山下的小妖怪

大厂在职AI训练师，即将转岗AI产品经理

9篇作品 17162总阅读量

B端产品如何进行页面设计？

02-0811303 浏览

B端产品如何进行页面设计？

拼多多短视频，向“抖快”讨经

03-093521 浏览

拼多多短视频，向“抖快”讨经

软件定义时代，存储行业的“百家争鸣”（上）

02-222902 浏览

软件定义时代，存储行业的“百家争鸣”（上）

一年赚多少钱？「曲曲大女人」商业模式揭秘

10-098338 浏览

一年赚多少钱？「曲曲大女人」商业模式揭秘

解读产品经理的「职责」

10-096702 浏览

解读产品经理的「职责」

评论

目前还没评论，等你发挥！