谷歌Gemini 2.5 Pro炸裂发布：AI界要变天？

Gemini 2.5 Pro 一经发布便备受瞩目，谷歌首席科学家 Jeff Dean 表示，该模型具有令人印象深刻的高级推理和编码能力，是谷歌目前最智能的模型。该模型已在 Google AI Studio 和 Gemini 应用中向 Gemini Advanced 用户开放，并将很快在 Vertex AI 上推出。

Gemini 2.5 系列的技术特点

Gemini 2.5 系列属于“思考模型”，这意味着该模型在生成最终回应之前，能够进行内部的“思考”或推理过程。谷歌表示，这种能力旨在显著提升模型的性能表现和答案的准确性，是谷歌在强化学习、思维链提示技术领域长期深耕，以及对早期 “思考” 模型（如 Gemini 2.0 Flash Thinking ）持续探索的重要成果。

Gemini 2.5 Pro 支持 100 万个 token 的上下文窗口，这意味着它可以一次性处理相当于两本《红楼梦》字数的文本量。谷歌还承诺，Gemini 2.5 Pro 很快将支持两倍的上下文窗口，达到 200 万个 token。

Gemini 2.5 Pro 在各项基准测试中的表现

谷歌在博客中强调，Gemini 2.5 Pro 在一系列行业基准测试中达到了“最先进水平”（state-of-the-art），包括常见的编程、数学和科学基准测试。

在“人类的最后考试”测试中，它获得了 18.8% 的最高分数，是目前为止所有未使用（外接工具）的大模型中最好的成绩。“人类最后的考试”旨在评估大型语言模型的能力极限，包含 3000 道涵盖数学、人文学科和自然科学等多个领域的前沿问题。
在专注于人类理解的大模型竞技场测试中，Gemini 2.5 Pro 也以创纪录的优势拔得头筹，创下了历史最大的分数跨越，比 Grok-3 和 GPT-4.5 高出 40 多分。
- 在代号为“nebula”的测试中，Gemini 2.5 Pro 横扫所有类别，夺得第一，独揽数学、创意写作、指令遵循、长查询和多轮对话这五大领域的冠军；
- 在人类偏好测试中，Gemini 2.5 Pro 同样是在所有类别中问鼎榜首，只在困难提示和编码领域与 Grok-3/GPT-4.5 拿到并列冠军。
在网页开发领域，Gemini 2.5 Pro 也在 WebDev Arena 上排名第二，超越了 Claude 3.5 Sonnet，是第一款能与 Claude 抗衡的模型，但仍低于 Claude 3.7 Sonnet。
在 Vision Arena（视觉竞技场）测试中，作为多模态模型的 Gemini 2.5 Pro 也处于领先的位置。

《每日经济新闻》记者实测：编程能力强大，审美和用户体验仍有提升空间

《每日经济新闻》记者第一时间对 Gemini 2.5 Pro 进行了测试，测试内容包括数学、火星登陆模拟、网页开发和小游戏制作。

数学问题解答

记者向 Gemini 2.5 Pro 提出了一个博士资格考试的群论数学问题：有多少个 147 阶的非同构群？

Gemini 2.5 Pro 在数量和具体的非同构群上都给出了完美的解答。此前，记者也用这一问题对其他大模型进行了测试，Grok3、o3-mini 和 DeepSeek-R1 都或多或少出现了错误，不是数量没找对，就是具体的非同构群出错。

火星登陆模拟

记者接着测试了 Gemini 2.5 Pro 在数学和物理方面的综合能力，选择的是马斯克的经典问题：绘制一个登陆火星并返回的火箭轨道图。

Gemini 2.5 Pro 给出了一个完成度超高的动态图像，包含任务天数、具体轨道示意图等要素。它还表示，这只是一个简单版本，如果允许它接入天体数据库，它还可以制作一个更准确的版本。

网页开发

在前端设计方面，记者要求 Gemini 2.5 Pro 设计一个有互动性的世界风光介绍网站。

Gemini 2.5 Pro 输出了一个完整的网站，带有景点介绍和互动地图探索相关功能。但在具体细节上，它犯了很多小错误，例如，景点介绍的图片不仅单一，而且内容也不相关。此外，整体网页设计的色调也不甚美观。

小游戏制作

最后，记者让 Gemini 2.5 Pro 制作一个类似于 Flappy Bird 的小游戏，要求是卡通画风，背景要随游玩时间变换，玩家主角要是一个小飞象，要有有趣的玩法创新。

经过短暂的思考，Gemini 2.5 Pro 输出了完成这个游戏需要的 500 多行代码。这个游戏完美地契合了记者的描述，并且对玩法创新的模糊描述也给出了良好的回应，自行思考出了无敌道具玩法，吃下金花生就可以在短时间内无敌。

更重要的是，这个游戏没有任何 bug，只需复制粘贴就可以流畅运行。在此前的大模型测试中，第一次的输出结果或多或少会出现一些 bug，影响游戏体验。但需要指出的是，Gemini 2.5 Pro 只考虑了背景变化的要求，却没注意到其生成的游戏背景图案中，云朵变化速度过快，太费眼睛。

总结

综上，《每日经济新闻》记者认为，Gemini 2.5 Pro 在科学类问题和编程等硬实力上表现出色，但在审美和玩家体验等软实力上还有提升空间。

比特财经中心

比特财经中心

谷歌Gemini 2.5 Pro炸裂发布：AI界要变天？

谷歌Gemini 2.5 Pro炸裂发布：AI界要变天？

谷歌发布 Gemini 2.5 Pro：号称“最智能”AI 模型，各项基准测试“屠榜”

Gemini 2.5 Pro 上线即“屠榜”

Gemini 2.5 系列的技术特点

Gemini 2.5 Pro 在各项基准测试中的表现

《每日经济新闻》记者实测：编程能力强大，审美和用户体验仍有提升空间

数学问题解答

火星登陆模拟

网页开发

小游戏制作

总结

Siegfried

Related Posts

首鋼朗澤上市受阻：股東內訌風波與公司治理挑戰

川普「大而美」法案：豪賭或續命？減稅、赤字與產業衝擊分析

发表回复取消回复

其他新闻

《解限機》爆紅全球：西山居機甲夢獲新華社背書，文化突圍成典範

首鋼朗澤上市受阻：股東內訌風波與公司治理挑戰

新萊應材股海沉浮：資金暗湧、槓桿風險與機構評級迷思

LBank報告揭示：迷因幣崛起，不再是玩笑？2025市場新趨勢

川普「大而美」法案：豪賭或續命？減稅、赤字與產業衝擊分析

3500點攻防戰：主力陽謀與散戶焦慮，後市機會解析

長陽科技股價異動：誰在操盤？散戶、游資、主力資金博弈

環旭電子股價震盪：資金、情緒、基本面臨挑戰

KuCoin合規、安全與生態進化：加密貨幣市場的挑戰與機遇

易方达指数基金策略解析：低费率竞争下的投资选择与产品线布局

比特财经中心

比特财经中心

谷歌Gemini 2.5 Pro炸裂发布：AI界要变天？

谷歌Gemini 2.5 Pro炸裂发布：AI界要变天？

谷歌发布 Gemini 2.5 Pro：号称“最智能”AI 模型，各项基准测试“屠榜”

Gemini 2.5 Pro 上线即“屠榜”

Gemini 2.5 系列的技术特点

Gemini 2.5 Pro 在各项基准测试中的表现

《每日经济新闻》记者实测：编程能力强大，审美和用户体验仍有提升空间

数学问题解答

火星登陆模拟

网页开发

小游戏制作

总结

Related Posts

首鋼朗澤上市受阻：股東內訌風波與公司治理挑戰

川普「大而美」法案：豪賭或續命？減稅、赤字與產業衝擊分析

发表回复 取消回复

其他新闻

发表回复取消回复