苦等的谷歌 Gemini 3 来了!!!再度登顶第一!!!

0 评论 1809 浏览 2 收藏 6 分钟

仅一天,AI 新王再度易主!从前期吊胃口的预热,到现在高调发布!挤爆牙膏!!几乎全项能力都登顶!!!

凌晨,在前期数次预热的 Gemini3 终于发布,目前可以在Google AI Studio中先行体验!

不得不说,昨天 Grok 4.1 还在与 GPT-5.1 你来我往的争第一,这下伴随着 山姆.奥特曼 的祝贺下 Gemini3 在各大榜单上大杀四方。

在LMArena排行榜上,Gemini3 pro 取得了夸张的 1501 Elo的成绩,把昨天刚上位的 Grok4.1 thinking 给踹了下去,这马斯克屁股还没捂热呢。

在 ARC-AGI-2(半私有评估)测试中,甚至实现了2倍的行业领先水平提升。

01 「人类最终测试」再度被刷榜!

作为给 AI 出台的现阶段最难的考试「人类最终测试」Gemini3 pro 不负期待的拿下了 37.5% 的惊人成绩,高于之前最佳的 GPT-5.1 10 个百分点以上。

综合能力:人工智能分析指数登顶

在基于以上人工智能分析智能指数10项评估中有5项位居榜首,包括:GPQA Diamond、 MMLU-Pro、HLE、LiveCodeBench 和 SciCode。

在幻觉表现方面,新推出的知识和幻觉评估工具 AA-Omniscience 的表现中也处于领先地位,在Omniscience Index(对错误答案扣分)和 Omniscience Accuraci(正确率)两项指标中均位列第一。

基于新标准的条件,这里合理推断Gemini 3Pro 的模型规模远大于其他 AI模型竞品。

其中的编码与智能体能力方面,Gemini 3 Pro 在人工智能分析指数的三项编码评估中,有两项名列前茅,其中SciCode测试得分高达56%,比之前的最高的 Grok4 提高了10个百分点以上。

它在智能体领域也表现出色,在Terminal-Bench Hard 和Tau2-Bench Telecom 测试中均取得了第二高的分数。

多模态能力表现方面,Gemini3 Pro 同样能够接收文本、图像、视频和音频作为输入。它在 MMMU-Pro 基准测试中得分最高,该测试旨在检验模型处理图像输入时的推理能力。目前,谷歌模型占据了 MMMU-Pro 排行榜的第一、第三和第四名。再度把GPT-5.1 上周刚获得的第二名成绩给踢了下去。

02 不菲的价格

报告中指出:可能出于衡量成本,实际分析了对应的成本指数,该指数结合了输入和输出 Token 价格以及Token效率, 来反映真实的运行成本。尽管 Gemini 3 Pro Preview 的Token效率较 Gemini 2.5 Pro 有所提高,但其运行成本仍然更高。现在的 Token定价 每百万输入/输出Token2 美元/12 美元≤ 20 万Token上下文。

03 优于其他同级别大模型的速度

⚡️可能由于谷歌第一方 TPU 的加速器,Gemini 3 Pro Preview 的速度与 Gemini 2.5 Pro 相当,每秒可输出128个 Token。这使其优于其他前沿模型,包括 GPT-5.1(高)、Kimi K 2 Thinking 和 Grok 4。

请等待我后续的实测~

文章引用:https://twitter.com/ArtificialAnlys/status/1990813106478715098?t=m508-tUAWxJUt-XIAM7mSA&s=19

本文由 @四吉在这 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图由作者提供

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!