谷歌发布Gemini 3:创下多个基准测试纪录

0 评论 569 浏览 0 收藏 4 分钟

这篇文章将带你直击 Gemini 3 的核心性能突破、基准测试亮点与配套工具升级,看懂谷歌在 AI 大模型赛道的最新布局与竞争优势。

借助Gemini 3,我们看到了推理能力的巨大飞跃。

周二,谷歌发布了最新的基础模型 Gemini 3,现已通过 Gemini 应用和 AI 搜索界面同时上线。

距 Gemini 2.5 发布仅过去七个月,这款新模型成为谷歌迄今为止性能最强的大语言模型(LLM),也成为市场上最具竞争力的 AI 工具之一。

此次发布距 OpenAI 推出 GPT 5.1 不到一周,距 Anthropic 发布 Sonnet 4.5 仅两个月后。 这一节奏印证了美国前沿模型领域迅猛的发展速度。

Gemini 3 的一个更侧重研究的版本 Gemini 3 Deepthink,在通过进一步安全测试后,将于未来几周向 Google AI Ultra 订阅用户开放。

“借助 Gemini 3,我们看到了推理能力的巨大飞跃”。

谷歌 Gemini 模型产品负责人 Tulsee Doshi 表示:“它的回应展现出前所未有的深度和细腻度”。

这种推理能力已在多个独立基准测试中得到体现。

在衡量综合推理能力与专业知识的 Humanity’s Last Exam 基准测试中,该模型以 37.4 分创下纪录最高分,此前的最高分由 GPT-5 Pro 保持,为 31.64 分。

此外,Gemini 3 还在由人类主导、衡量用户满意度的 LMArena 基准测试中位居榜首。

据谷歌透露,Gemini 目前月活跃用户已超 6.5 亿,已有 1300 万名软件开发者将该模型纳入工作流程。

除基础模型外,谷歌还同步推出了一款基于 Gemini 技术的编程界面 Google Antigravity,支持多面板智能编程功能,类似 Warp 或 Cursor 2.0 等智能集成开发环境(agentic IDEs)。

具体而言,Antigravity 整合了 ChatGPT 风格的提示窗口、命令行界面以及浏览器窗口,可实时展示编程智能体(coding agent)所做修改的效果。

Antigravity 能够与用户的编辑器、终端和浏览器协同工作,确保以最优方式协助用户构建应用程序。

本文由人人都是产品经理作者【AI新智能】,微信公众号:【AIOrbit】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!