全球人工智能创业公司Anthropic于9月29日(当地时间)发布了其新的前沿AI模型“Claude Sonnet 4.5”。公司表示该模型在代码编写和问题解决能力上有了显著提升,尤其是在复杂软件开发、数学推理以及实用计算机使用能力方面表现出世界顶级水平。

“Claude Sonnet 4.5”的最大特点是其在编程领域的性能提升。代码执行能力与软件开发、电子表格管理、文档编写等现代工作环境直接相关。公司表示此次模型不仅能生成代码,还能稳定执行长时间的复杂开发任务。
在实际基准测试中也取得了显著结果。在“SWE-bench Verified”软件开发测试中取得了最佳表现,还在验证操作系统实际工作能力的“OSWorld”基准测试中大幅领先于以前的模型。从4个月前的42%提升到此次的超过61%。


Anthropic还全面升级了其主要产品线。代码开发工具“Claude Code”新增了用户可以保存工作记录并恢复到以前状态的检查点功能。此功能一直是开发者们的要求,对于大型项目管理特别有用。
此外,终端接口得到了改进,并为微软的代表性开发环境“VS Code”提供了新的扩展程序。此外,还在Claude API中增加了内存管理工具和上下文编辑功能,以便长期运行的代理能够处理更大的任务。
用户友好的更新也引人注目。在Claude应用程序中,不仅可以在对话中执行代码,还可以创建电子表格、幻灯片和文档等文件。Chrome浏览器扩展程序也按顺序提供给在等待名单上的付费用户。
Anthropic首次向外部开发者公开其内部使用的代理开发基础设施。“Claude Agent SDK”这款工具提供了设计和运营AI代理的核心技术。
通过该工具,开发人员可以解决内存管理、权限系统、多重子代理协调等复杂问题。公司表示:“通过开放我们自用的代理开发基础设施,任何人都可以构建自己的强大AI代理。”
Anthropic表示,这一模型不仅在性能上有所提升,在安全性上也迈出了进步。它大幅减少了以前模型中出现的奉承、欺骗、过度自主以及虚幻表述等不当行为。特别是增强了对恶意输入使用的防御能力。
Claude Sonnet 4.5应用了AI安全等级3(ASL-3)的保护措施。这意味着它包含了可以检测化学、生物、放射、核(CBRN)相关危险输入的分类器等安全过滤器。但是,正常内容可能被误拦截,因此用户可以选择风险较低的以前版本。
新模型自9月29日(当地时间)起在全球范围内可用,价格与现有的Claude Sonnet 4相同,每百万个代币的输入费用为3美元,输出费用为15美元。通过Claude Code、Claude应用程序、Claude API等全产品线可立即利用升级后的性能。
此外,Anthropic还临时提供名为“Imagine with Claude”的研究预览服务。这一实验功能专注于根据用户请求实时生成软件,而无需事先编码。
在金融、法律、医疗、工程等专业领域中,Claude Sonnet 4.5被评比为比以前的模型表现更出色的AI工具。公司强调这一模型是迄今为止公开的Anthropic模型中“对齐度最高”的。
随着谷歌、OpenAI、Meta等公司纷纷加入下一代模型竞争,Anthropic的“Claude Sonnet 4.5”可能会在市场上引发新的变革。特别是在软件开发环境和实际计算机使用能力方面的提升,值得其他企业关注其应对措施。