苦等的谷歌 Gemini 3 来了！！！再度登顶第一！！！ | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

{{ userInfo.member ? '查看权益' : '开通会员' }}

发布

注册 | 登录

苦等的谷歌 Gemini 3 来了！！！再度登顶第一！！！

四吉在这

2025-11-19

0 评论 2134 浏览 2 收藏

6 分钟

仅一天，AI 新王再度易主！从前期吊胃口的预热，到现在高调发布！挤爆牙膏！！几乎全项能力都登顶！！！

凌晨，在前期数次预热的 Gemini3 终于发布，目前可以在Google AI Studio中先行体验！

不得不说，昨天 Grok 4.1 还在与 GPT-5.1 你来我往的争第一，这下伴随着山姆.奥特曼的祝贺下 Gemini3 在各大榜单上大杀四方。

在LMArena排行榜上，Gemini3 pro 取得了夸张的 1501 Elo的成绩，把昨天刚上位的 Grok4.1 thinking 给踹了下去，这马斯克屁股还没捂热呢。

在 ARC-AGI-2（半私有评估）测试中，甚至实现了2倍的行业领先水平提升。

01 「人类最终测试」再度被刷榜！

作为给 AI 出台的现阶段最难的考试「人类最终测试」Gemini3 pro 不负期待的拿下了 37.5% 的惊人成绩，高于之前最佳的 GPT-5.1 10 个百分点以上。

综合能力：人工智能分析指数登顶

在基于以上人工智能分析智能指数10项评估中有5项位居榜首，包括：GPQA Diamond、 MMLU-Pro、HLE、LiveCodeBench 和 SciCode。

在幻觉表现方面，新推出的知识和幻觉评估工具 AA-Omniscience 的表现中也处于领先地位，在Omniscience Index（对错误答案扣分）和 Omniscience Accuraci（正确率）两项指标中均位列第一。

基于新标准的条件，这里合理推断Gemini 3Pro 的模型规模远大于其他 AI模型竞品。

其中的编码与智能体能力方面，Gemini 3 Pro 在人工智能分析指数的三项编码评估中，有两项名列前茅，其中SciCode测试得分高达56%，比之前的最高的 Grok4 提高了10个百分点以上。

它在智能体领域也表现出色，在Terminal-Bench Hard 和Tau2-Bench Telecom 测试中均取得了第二高的分数。

多模态能力表现方面，Gemini3 Pro 同样能够接收文本、图像、视频和音频作为输入。它在 MMMU-Pro 基准测试中得分最高，该测试旨在检验模型处理图像输入时的推理能力。目前，谷歌模型占据了 MMMU-Pro 排行榜的第一、第三和第四名。再度把GPT-5.1 上周刚获得的第二名成绩给踢了下去。

02 不菲的价格

报告中指出：可能出于衡量成本，实际分析了对应的成本指数，该指数结合了输入和输出 Token 价格以及Token效率，来反映真实的运行成本。尽管 Gemini 3 Pro Preview 的Token效率较 Gemini 2.5 Pro 有所提高，但其运行成本仍然更高。现在的 Token定价每百万输入/输出Token2 美元/12 美元≤ 20 万Token上下文。

03 优于其他同级别大模型的速度

⚡️可能由于谷歌第一方 TPU 的加速器，Gemini 3 Pro Preview 的速度与 Gemini 2.5 Pro 相当，每秒可输出128个 Token。这使其优于其他前沿模型，包括 GPT-5.1（高）、Kimi K 2 Thinking 和 Grok 4。

请等待我后续的实测~

文章引用：https://twitter.com/ArtificialAnlys/status/1990813106478715098?t=m508-tUAWxJUt-XIAM7mSA&s=19

本文由 @四吉在这原创发布于人人都是产品经理。未经作者许可，禁止转载

题图由作者提供

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

四吉在这

ai行业工作者

7篇作品 17469总阅读量

只需一段话，「一键生成」短视频的工具来了

01-3011471 浏览

只需一段话，「一键生成」短视频的工具来了

过度服务，最好的解药是 Customer Obsession

12-261690 浏览

过度服务，最好的解药是 Customer Obsession

广告回传策略构建及运用–广告增长第二阶段（精细化）

12-258781 浏览

广告回传策略构建及运用–广告增长第二阶段（精细化）

本地生活下半场：抖音微信，决战美团

02-223128 浏览

本地生活下半场：抖音微信，决战美团

WonderLab如何靠一款新品策划，成功拓展品类，实现销量快速增长？

03-108474 浏览

WonderLab如何靠一款新品策划，成功拓展品类，实现销量快速增长？

评论

目前还没评论，等你发挥！

俞敏洪为董宇辉开设了独立直播间后，东方甄选的商业模式会有什么改变？

12-251958 浏览
产品经理启示录（一）：产品经理的职业观

07-2012184 浏览
千亿规模的茶叶行业，品牌如何靠私域提升业绩？

08-305746 浏览