谷歌发布”思考型AI”Gemini 2.5 Pro,超越GPT-4.5性能

Photo of author

By Global Team

 

谷歌发布其最新的人工智能模型‘Gemini 2.5 Pro’,在生成型AI技术竞争中开辟了新的战场。
谷歌发布其最新的人工智能模型‘Gemini 2.5 Pro’,在生成型AI技术竞争中开辟了新的战场。

谷歌发布了其最新的人工智能模型“Gemini 2.5 Pro”,在生成型AI技术竞争中开辟了新的战场。该模型基于增强的推理能力、多模态理解和扩展的上下文处理范围等技术优势,在各种基准测试中证明了其超越GPT-4.5的性能。

截至2025年3月,Gemini 2.5 Pro以实验形式发布,能够同时处理包括文字、图像、音频和视频在内的多种类型输入数据,并可以逻辑地整合这些数据以生成高维度的响应。谷歌将这个模型定义为具备‘思考’能力的下一代AI,强调其已经从传统模型的简单应答模式进化到更高级的学习结构。

特别是,Gemini 2.5 Pro强化了对用户请求进行复杂背景理解和逻辑性推论来生成应答的‘多阶段推理’能力,从而在数学、科学、程序代码生成等高难度任务中同时确保准确性和效率。该模型还在代码生成和转换能力方面取得了进展,只需一行提示便能编写出可执行的复杂代码,这被认为是提高开发者使用实用性的关键因素。谷歌为此应用了后续学习增强技术,提高了AI实时解决问题的能力。

在各种基准测试指标中,Gemini 2.5 Pro显示出了行业领先的成果。在LMArena排行榜中,它击败了竞争对手Claude 3.7和o3-mini,轻松获得第一名。在需要复杂推理的“人类最后的考试”中,未使用工具就取得了18.8%的成绩超越其他模型,在“GPQA Diamond”测试中取得了84.0%的正确率,而在“AIME 2025”测试中以86.7%的正确率证明了其精密推理能力。

Gemini 2.5 Pro在三个主要基准测试中表现出超越竞争对手的性能...
Gemini 2.5 Pro在三个主要基准测试中表现出超越竞争对手的性能…

在MRCR基准测试中,对长篇文档的解释能力(128K标记)达到91.5%的准确度,较GPT-4.5高出接近两倍,而在评估多模态理解能力的MMMU测试中,则表现出81.7%的正确率,显示出同时分析不同形式信息的竞争能力。

MRCR(多轮共指解析)评估结果更新于25.03.26。
MRCR(多轮共指解析)评估结果更新于25.03.26。

在技术规格方面,Gemini 2.5 Pro大幅提升了行业标准,支持多达100万标记的上下文窗口,比现有模型提供了几十倍的信息处理范围。谷歌计划在不久的将来将这一范围扩展到200万标记,并能生成最多65,000标记的输出,从而提供更详细和全面的响应。

目前,该模型以网络形式提供给Google AI Studio和Gemini Advanced的付费订阅用户,并计划通过Vertex AI逐渐扩大到企业用户。移动平台整合也预计将在近期实现。有关定价策略和速度限制解除等商业化所需的详细信息将在几周内公布。

谷歌通过这种分阶段发布战略收集早期用户反馈,并以此为基础细化Gemini 2.5 Pro的性能,计划将其整合到谷歌的整体服务生态系统中。尽管目前仍处于实验阶段,但作为推理型AI正式商业化的前哨战,已引起行业的广泛关注。

Leave a Comment