谷歌发布 Gemini 2.5 Pro:号称“最智能”AI 模型,各项基准测试“屠榜”

谷歌于当地时间 3 月 25 日正式发布了其下一代 AI 模型系列 Gemini 2.5,并宣称这是目前为止“最智能的 AI 模型”。首个发布的版本为 Gemini 2.5 Pro Experimental(以下简称“Gemini 2.5 Pro”)。

Gemini 2.5 Pro 上线即“屠榜”

Gemini 2.5 Pro 一经发布便备受瞩目,谷歌首席科学家 Jeff Dean 表示,该模型具有令人印象深刻的高级推理和编码能力,是谷歌目前最智能的模型。该模型已在 Google AI Studio 和 Gemini 应用中向 Gemini Advanced 用户开放,并将很快在 Vertex AI 上推出。

Gemini 2.5 系列的技术特点

Gemini 2.5 系列属于“思考模型”,这意味着该模型在生成最终回应之前,能够进行内部的“思考”或推理过程。谷歌表示,这种能力旨在显著提升模型的性能表现和答案的准确性,是谷歌在强化学习、思维链提示技术领域长期深耕,以及对早期 “思考” 模型(如 Gemini 2.0 Flash Thinking )持续探索的重要成果。

Gemini 2.5 Pro 支持 100 万个 token 的上下文窗口,这意味着它可以一次性处理相当于两本《红楼梦》字数的文本量。谷歌还承诺,Gemini 2.5 Pro 很快将支持两倍的上下文窗口,达到 200 万个 token。

Gemini 2.5 Pro 在各项基准测试中的表现

谷歌在博客中强调,Gemini 2.5 Pro 在一系列行业基准测试中达到了“最先进水平”(state-of-the-art),包括常见的编程、数学和科学基准测试。

  • 在“人类的最后考试”测试中,它获得了 18.8% 的最高分数,是目前为止所有未使用(外接工具)的大模型中最好的成绩。“人类最后的考试”旨在评估大型语言模型的能力极限,包含 3000 道涵盖数学、人文学科和自然科学等多个领域的前沿问题。

    人类的最后考试

  • 在专注于人类理解的大模型竞技场测试中,Gemini 2.5 Pro 也以创纪录的优势拔得头筹,创下了历史最大的分数跨越,比 Grok-3 和 GPT-4.5 高出 40 多分。

    大模型竞技场

    • 在代号为“nebula”的测试中,Gemini 2.5 Pro 横扫所有类别,夺得第一,独揽数学、创意写作、指令遵循、长查询和多轮对话这五大领域的冠军;

      X平台截图

    • 在人类偏好测试中,Gemini 2.5 Pro 同样是在所有类别中问鼎榜首,只在困难提示和编码领域与 Grok-3/GPT-4.5 拿到并列冠军。

      人类偏好测试

  • 在网页开发领域,Gemini 2.5 Pro 也在 WebDev Arena 上排名第二,超越了 Claude 3.5 Sonnet,是第一款能与 Claude 抗衡的模型,但仍低于 Claude 3.7 Sonnet。

    WebDev Arena

  • 在 Vision Arena(视觉竞技场)测试中,作为多模态模型的 Gemini 2.5 Pro 也处于领先的位置。

    Vision Arena

    《每日经济新闻》记者实测:编程能力强大,审美和用户体验仍有提升空间

《每日经济新闻》记者第一时间对 Gemini 2.5 Pro 进行了测试,测试内容包括数学、火星登陆模拟、网页开发和小游戏制作。

数学问题解答

记者向 Gemini 2.5 Pro 提出了一个博士资格考试的群论数学问题:有多少个 147 阶的非同构群?

Gemini 2.5 Pro 在数量和具体的非同构群上都给出了完美的解答。此前,记者也用这一问题对其他大模型进行了测试,Grok3、o3-mini 和 DeepSeek-R1 都或多或少出现了错误,不是数量没找对,就是具体的非同构群出错。

数学问题解答结果

火星登陆模拟

记者接着测试了 Gemini 2.5 Pro 在数学和物理方面的综合能力,选择的是马斯克的经典问题:绘制一个登陆火星并返回的火箭轨道图。

Gemini 2.5 Pro 给出了一个完成度超高的动态图像,包含任务天数、具体轨道示意图等要素。它还表示,这只是一个简单版本,如果允许它接入天体数据库,它还可以制作一个更准确的版本。

火星登陆模拟

网页开发

在前端设计方面,记者要求 Gemini 2.5 Pro 设计一个有互动性的世界风光介绍网站。

Gemini 2.5 Pro 输出了一个完整的网站,带有景点介绍和互动地图探索相关功能。但在具体细节上,它犯了很多小错误,例如,景点介绍的图片不仅单一,而且内容也不相关。此外,整体网页设计的色调也不甚美观。

网页开发1

网页开发2

网页开发3

小游戏制作

最后,记者让 Gemini 2.5 Pro 制作一个类似于 Flappy Bird 的小游戏,要求是卡通画风,背景要随游玩时间变换,玩家主角要是一个小飞象,要有有趣的玩法创新。

经过短暂的思考,Gemini 2.5 Pro 输出了完成这个游戏需要的 500 多行代码。这个游戏完美地契合了记者的描述,并且对玩法创新的模糊描述也给出了良好的回应,自行思考出了无敌道具玩法,吃下金花生就可以在短时间内无敌。

更重要的是,这个游戏没有任何 bug,只需复制粘贴就可以流畅运行。在此前的大模型测试中,第一次的输出结果或多或少会出现一些 bug,影响游戏体验。但需要指出的是,Gemini 2.5 Pro 只考虑了背景变化的要求,却没注意到其生成的游戏背景图案中,云朵变化速度过快,太费眼睛。

小游戏制作

总结

综上,《每日经济新闻》记者认为,Gemini 2.5 Pro 在科学类问题和编程等硬实力上表现出色,但在审美和玩家体验等软实力上还有提升空间。