人工智能模型"Claude Opus 4.5"亮相 - 开启人机协作新纪元

美国人工智能公司Anthropic于当地时间25日正式发布了新的语言模型“Claude Opus 4.5”。

该模型不仅限于生成文本，还具备像人一样分析和判断问题的能力。

特别是在实际开发工作、文档撰写、数据分析等方面的性能大幅提升，因此被评价为“AI已达到可以代替人类工作的水平”。

Anthropic表示：“Opus 4.5不是一个完全遵循人类命令的工具，而是一个能够自主理解情况并找到合理解决方案的模型”，并称这是“AI与人协作时代的开端”。

Opus 4.5的性能不仅仅是宣传，而是通过实际数据证实的。

Anthropic将其应用于公司内部工程师招聘过程中使用的实战编程考试。考试时间限制为2小时，问题集中在实际企业环境中可能出现的复杂错误修复和功能实现。结果显示，Opus 4.5的得分高于所有历届应聘者。

Anthropic方面解释说：“这表明AI已经具备了与人类水平相当的技术判断能力。”

在另一项国际标准评估“SWE-bench Verified”中，Opus 4.5也取得了最高分。该测试用于测量全球AI模型在实际开发工作环境中代码编写正确性及错误修复能力。

Opus 4.5展示了超越简单计算能力的“情境判断力”。

Anthropic以航空公司客户服务场景为例。客户希望更改机票时间表，但相关座位等级不允许变更。

大多数模型会回答“根据规定不可能”，但Opus 4.5采取了不同的方式。首先将座位等级升级，然后建议新的可更改条件。这一过程既没有违反规定，又合法解决了客户的需求。

虽然实验中未评为“正确答案”，但研究人员评价道：“AI不再只是简单执行命令，而是创造性地解决问题，这一点值得关注。”

Anthropic表示Opus 4.5的运作效率比前一版本提高了许多。

解决同一个问题所需的文本量（token）减少了最多76%，而结果更加精确。意味着AI无需多余说明或重复推理，即可快速得出结论。

开发人员在使用API时可以直接设置‘effort（努力）’水平。例如，若需要简单回答，则选择‘低努力模式’，若需要复杂分析，则选择‘高努力模式’。

设定最高水平时，Opus 4.5比前一版本具有更高的准确性，占用的token则减少了一半。

Opus 4.5在长对话或复杂文档工作中也能自动整理上下文。以前对话长度增加时，前面内容会消失，而该版本能够自动总结并保持对话的进行。

此外，Opus 4.5可以与Excel、Chrome、桌面等多种软件联动，在资料分析或报告撰写等重复作业中有高适用性。

随着AI的发展，“安全性”成为了必修课题。最近某些AI因受用户指示欺骗，或误解恶意命令而导致错误行为的案例逐渐增多。

为防止此类情况发生，Anthropic强调该模型是“最为对齐的模型”。

提示注入（prompt injection）是一种向AI隐秘注入恶意指令引导出错输出的攻击方式。Opus 4.5在此类攻击防御上被评价为行业最高水平。

Anthropic表示：“即使黑客巧妙输入设计的句子，Opus 4.5也能识别意图并阻断反应。”

AI本身不会做出非意图行为的设计特点亦为一大特色。公司强调：“该模型非但不只是聪明，而且是安全设计出来的。”

Anthropic让Opus 4.5可以在其自有应用、API及主要云平台中直接使用。使用费用为输入100万token五美元，输出25美元。在高性能AI模型中相对较为便宜。

面向开发者的工具“Claude Code”基于Opus 4.5增加了精密规划功能。AI在工作前撰写计划文件并提出建议后执行，因此更加容易与人协作。

此外，桌面版本中可同时进行多项任务，提高了效率。浏览器扩展程序‘Claude for Chrome’和‘Claude for Excel’也扩展至普通用户。

不光是企业，普通用户也能在Excel中自动化数据分析或文档整理。

Opus 4.5的出现被评价为人工智能的一个新转折点。

AI不仅是简单的信息查找助手，而是演变为与人共同思考和工作的“伙伴”形态。

Anthropic表示：“Opus 4.5是提升人工智能效率和安全性兼具的模型”，并表示“将来会集中精力开发更实用、更可靠的AI”。

由此，AI编写代码、解决问题、理解和应对规定的时代已经来临。Claude Opus 4.5被认为是证实这一变化为现实的首款模型。

科技部举办”2025年韩国智能物联网周(AIoT Week Korea)”