人工智能模型”Claude Opus 4.5″亮相 – 开启人机协作新纪元

Photo of author

By Global Team

美国人工智能公司Anthropic于当地时间25日正式发布了新的语言模型“Claude Opus 4.5”。

该模型不仅限于生成文本,还具备像人一样分析和判断问题的能力。

特别是在实际开发工作、文档撰写、数据分析等方面的性能大幅提升,因此被评价为“AI已达到可以代替人类工作的水平”。

Anthropic表示:“Opus 4.5不是一个完全遵循人类命令的工具,而是一个能够自主理解情况并找到合理解决方案的模型”,并称这是“AI与人协作时代的开端”。

AI模型的领域性表现比较表(来源=Anthropic)
AI模型的领域性表现比较表(来源=Anthropic)

Opus 4.5的性能不仅仅是宣传,而是通过实际数据证实的。

Anthropic将其应用于公司内部工程师招聘过程中使用的实战编程考试。考试时间限制为2小时,问题集中在实际企业环境中可能出现的复杂错误修复和功能实现。结果显示,Opus 4.5的得分高于所有历届应聘者。

Anthropic方面解释说:“这表明AI已经具备了与人类水平相当的技术判断能力。”

在另一项国际标准评估“SWE-bench Verified”中,Opus 4.5也取得了最高分。该测试用于测量全球AI模型在实际开发工作环境中代码编写正确性及错误修复能力。

‘SWE-bench Verified’中Opus 4.5获得最高分。(来源=Anthropic)
‘SWE-bench Verified’中Opus 4.5获得最高分。(来源=Anthropic)

Opus 4.5展示了超越简单计算能力的“情境判断力”。

Anthropic以航空公司客户服务场景为例。客户希望更改机票时间表,但相关座位等级不允许变更。

大多数模型会回答“根据规定不可能”,但Opus 4.5采取了不同的方式。首先将座位等级升级,然后建议新的可更改条件。这一过程既没有违反规定,又合法解决了客户的需求。

虽然实验中未评为“正确答案”,但研究人员评价道:“AI不再只是简单执行命令,而是创造性地解决问题,这一点值得关注。”

Anthropic表示Opus 4.5的运作效率比前一版本提高了许多。

解决同一个问题所需的文本量(token)减少了最多76%,而结果更加精确。意味着AI无需多余说明或重复推理,即可快速得出结论。

开发人员在使用API时可以直接设置‘effort(努力)’水平。例如,若需要简单回答,则选择‘低努力模式’,若需要复杂分析,则选择‘高努力模式’。

设定最高水平时,Opus 4.5比前一版本具有更高的准确性,占用的token则减少了一半。

Opus 4.5在长对话或复杂文档工作中也能自动整理上下文。以前对话长度增加时,前面内容会消失,而该版本能够自动总结并保持对话的进行。

此外,Opus 4.5可以与Excel、Chrome、桌面等多种软件联动,在资料分析或报告撰写等重复作业中有高适用性。

Opus 4.5使用比以前版本更少的token,而得出相似或更好的结果。(来源=Anthropic)
Opus 4.5使用比以前版本更少的token,而得出相似或更好的结果。(来源=Anthropic)

随着AI的发展,“安全性”成为了必修课题。最近某些AI因受用户指示欺骗,或误解恶意命令而导致错误行为的案例逐渐增多。

为防止此类情况发生,Anthropic强调该模型是“最为对齐的模型”。

提示注入(prompt injection)是一种向AI隐秘注入恶意指令引导出错输出的攻击方式。Opus 4.5在此类攻击防御上被评价为行业最高水平。

Anthropic表示:“即使黑客巧妙输入设计的句子,Opus 4.5也能识别意图并阻断反应。”

AI本身不会做出非意图行为的设计特点亦为一大特色。公司强调:“该模型非但不只是聪明,而且是安全设计出来的。”

AI模型对提示注入(Prompt Injection)攻击的脆弱性比较图(来源=Anthropic)
AI模型对提示注入(Prompt Injection)攻击的脆弱性比较图(来源=Anthropic)

Anthropic让Opus 4.5可以在其自有应用、API及主要云平台中直接使用。使用费用为输入100万token五美元,输出25美元。在高性能AI模型中相对较为便宜。

面向开发者的工具“Claude Code”基于Opus 4.5增加了精密规划功能。AI在工作前撰写计划文件并提出建议后执行,因此更加容易与人协作。

此外,桌面版本中可同时进行多项任务,提高了效率。浏览器扩展程序‘Claude for Chrome’和‘Claude for Excel’也扩展至普通用户。

不光是企业,普通用户也能在Excel中自动化数据分析或文档整理。

Opus 4.5的出现被评价为人工智能的一个新转折点。

AI不仅是简单的信息查找助手,而是演变为与人共同思考和工作的“伙伴”形态。

Anthropic表示:“Opus 4.5是提升人工智能效率和安全性兼具的模型”,并表示“将来会集中精力开发更实用、更可靠的AI”。

由此,AI编写代码、解决问题、理解和应对规定的时代已经来临。Claude Opus 4.5被认为是证实这一变化为现实的首款模型。

댓글 남기기