谷歌发布”思考型AI”Gemini 2.5 Pro,超越GPT-4.5性能

  谷歌发布其最新的人工智能模型‘Gemini 2.5 Pro’,在生成型AI技术竞争中开辟了新的战场。 谷歌发布了其最新的人工智能模型“Gemini 2.5 Pro”,在生成型AI技术竞争中开辟了新的战场。该模型基于增强的推理能力、多模态理解和扩展的上下文处理范围等技术优势,在各种基准测试中证明了其超越GPT-4.5的性能。 截至2025年3月,Gemini 2.5 Pro以实验形式发布,能够同时处理包括文字、图像、音频和视频在内的多种类型输入数据,并可以逻辑地整合这些数据以生成高维度的响应。谷歌将这个模型定义为具备‘思考’能力的下一代AI,强调其已经从传统模型的简单应答模式进化到更高级的学习结构。 特别是,Gemini 2.5 Pro强化了对用户请求进行复杂背景理解和逻辑性推论来生成应答的‘多阶段推理’能力,从而在数学、科学、程序代码生成等高难度任务中同时确保准确性和效率。该模型还在代码生成和转换能力方面取得了进展,只需一行提示便能编写出可执行的复杂代码,这被认为是提高开发者使用实用性的关键因素。谷歌为此应用了后续学习增强技术,提高了AI实时解决问题的能力。 在各种基准测试指标中,Gemini 2.5 Pro显示出了行业领先的成果。在LMArena排行榜中,它击败了竞争对手Claude 3.7和o3-mini,轻松获得第一名。在需要复杂推理的“人类最后的考试”中,未使用工具就取得了18.8%的成绩超越其他模型,在“GPQA Diamond”测试中取得了84.0%的正确率,而在“AIME 2025”测试中以86.7%的正确率证明了其精密推理能力。 Gemini 2.5 Pro在三个主要基准测试中表现出超越竞争对手的性能… 在MRCR基准测试中,对长篇文档的解释能力(128K标记)达到91.5%的准确度,较GPT-4.5高出接近两倍,而在评估多模态理解能力的MMMU测试中,则表现出81.7%的正确率,显示出同时分析不同形式信息的竞争能力。 MRCR(多轮共指解析)评估结果更新于25.03.26。 在技术规格方面,Gemini ...

Read more