刚刚,谷歌杀疯了!Gemini 3 横扫全榜

0 评论 863 浏览 3 收藏 8 分钟

Gemini 3 的横空出世,不只是一次技术迭代,而是谷歌在全球 AI 战局中的全面出击。它的表现,正在重塑智能体的边界,也让竞争格局骤然生变。

几小时前,谷歌扔下一枚核弹。

没错,是你们心心念念的Gemini 3

当看到 LMArena 排行榜时,我直接惊呆了。

1501 分,有点离谱。

要知道,就在昨天,老马还在为Grok 4.1以 1483 分登顶而沾沾自喜。

然而,快乐不过 24 小时,就转移了。

真不愧是你啊,谷歌大王。

01|Gemini 3 到底有多强?横扫!

和上周 OpenAI 的GPT-5.1 ,以昨天马斯克的Grok 4.1不同,谷歌直接掏出了Gemini 3 Pro全套基准测试结果。

这才是大版本更新应该有的底气。

同时,也说明谷歌是有多自信。

看完下面这张基准测试对比表,你就明白这份自信从何而来:

先说结论:

除了编程测试 SWE-Bench Verified,其他所有指标,Gemini 3 Pro 横扫全场。

在“人类最后一场考试”(Humanity’s Last Exam,HLE)这个博士级难度测试中,Gemini 3 Pro拿下了 37.5%。

感觉还好?

要知道这是不使用任何外部工具的纯推理成绩。

同样的条件下,GPT-5.1准确率 26.5%,而 Claude Sonnet 4.5更是只有 13.7%,太偏科了这个小老弟。

更夸张的是数学。

MathArena Apex包含 12 道从 2025 年全球顶级数学竞赛中精选的“地狱级”难题,难度堪比国际数学奥赛(IMO)的压轴题。

Gemini 3 Pro砍下 23.4% 的新纪录。

在这之前,其他模型基本都在 2% 以下挣扎。

Gemini 3 Pro其他碾压式的测试结果已经数不胜数。

即便在唯一“失利”的 SWE-Bench Verified 上,它也有 76.2%,仅比第一名Claude Sonnet 4.5 (77.2%)低 1%。

02|疯狂的 Gemini 3

之前Gemini 3一直在憋一个大招,专攻前端开发。

这次,它真的来了。

在 WebDev Arena这个专门测试一句话生成网页能力的排行榜上,Gemini 3 Pro直接拿下 1487 的 Elo 综合分,再次碾压所有其他模型。

第二名是 GPT-5,仅得 1395 分。

整整超出了快 100 分!

更疯狂的是,谷歌同时发布了一个叫Google Antigravity的开发平台。

这不是普通的 AI IDE,而是一个多智能体协作的编程环境。

想象一下,你提需求,多个 AI Agents 同时在编辑器、终端和浏览器里协同工作,一个负责写代码,一个负责测试,一个负责优化。

这就像你突然有了一个完整的、24 小时待命的开发团队。

基于 Gemini 3 Pro,支持 MacOS、Windows 和 Linux,目前处于免费的预览阶段。

感兴趣的可以试一下。

可能遇到登录不上的情况,多试几次。

03|秒杀级的多模态理解

聊回Gemini 3 Pro模型本身。

谷歌 Gemini 系列一直有两个王牌能力:超长上下文和原生多模态。

Gemini 3 Pro延续了2.5 Pro的100 万 tokens 上下文。

依然是最大的上下文窗口。

多模态也依旧无敌。

文本、图片、PDF、甚至是视频,Gemini 3 Pro都能直接解析,无需任何预处理。

在 ScreenSpot Pro这个测试理解屏幕界面的基准上,Gemini 3 Pro拿下 72.7% 的准确率。

GPT-5.1?3.5%(你没有看错)。

Claude 4.5稍微好一点,36.2%。

另一个小惊喜,谷歌为 Gemini 3 Pro增加了一个很实用的 API 参数:media_resolution

你现在可以根据任务需要,动态调整它处理图片、文档或视频的精细度。

比如处理一份普通的 PDF 合同,用中等分辨率就够,560 个 tokens 搞定。

最后是小可爱们都关心的 API 价格。

很遗憾,谷歌这次没有对免费用户开放 Gemini 3 Pro API 使用权限。

但你仍然可以在 AI Studio 免费体验(只是不能调用 API 了)。

Gemini 3 ProAPI 价格比 2.5 Pro稍贵一丢丢:20 万上下文以内,每百万输入 tokens 2 美元,输出 12 美元;20 万上下文以上,每百万输入 tokens 4 美元,输出 18 美元。

这个价格比Claude 4.5 Sonnet 的 3 和 15 美元更有性价比。

物有所值。

04|还有高手?!

看到这里,你是不是觉得 Gemini 3 Pro很强。

No no no,还有比它更强的:Gemini 3 Deep Think

就是那个拿下国际数学奥赛金牌的 Gemini 2.5 Deep Think的升级版。

性能更强,但还没有发布。

谷歌官方说要进行更多安全评估,再等几周才对 Ultra 订阅用户优先开放。

结语

截至写这篇文章,Gemini 3 Pro已经在谷歌 AI Studio、Gemini 网页端、Gemini App(慢于网页端)同步上线。

免费可用。

首推谷歌 AI Studio,免费额度更高,模型都是满血,可玩性也更强。

不得不说,属于谷歌的 AI 时代,来了。

本文由 @灵山下的小妖怪 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于cc0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!