谷歌Gemini 3.5 Flash默认搭载"电脑使用"功能……AI代理竞争加速

谷歌将“电脑使用（computer use）”功能作为默认工具，加入到主力AI模型“Gemini 3.5 Flash”中。AI正从只回答问题，走向直接代人处理工作的阶段。

谷歌24日（当地时间）表示，已将“电脑使用”功能作为默认工具加入其AI模型“Gemini 3.5 Flash”。AI可以识别屏幕，自主进行点击、输入文字和滚动操作，不仅可用于网页浏览器，也可在智能手机和PC环境中运行。

这一功能并非全新。去年10月，谷歌曾以独立模型形式率先推出同类功能。此次不同之处在于，无需单独调用，已可直接在主力模型中使用。

开发者无需在两个模型之间来回切换。谷歌DeepMind产品经理马特奥·基罗斯表示，这次整合使Flash能够看屏幕、作判断并采取行动。

◆ 从聊天机器人到做事的AI

Gemini 3.5 Flash在智能手机屏幕上直接浏览并分类应用功能。谷歌将其作为处理重复性工作的AI代理示例加以展示。AI代理是指接受人类指令后，能够自主处理多个步骤任务的AI，与仅仅回答问题的聊天机器人并非同一概念。

谷歌主打的应用场景是重复性工作自动化。即使人不逐一点击屏幕，AI也能检查软件并发现错误；还可负责在多个网站上收集资料、填写表单，或从公司内部系统提取数据。

业内认为，这意味着AI已从停留在回答层面，进入代替实际劳动的阶段。这被解读为AI产业重心正从聊天机器人转向“会做事的助手”的一个缩影。

◆ 谷歌把安全机制放在前台

谷歌公开的OSWorld-Verified性能对比显示，Gemini 3.5 Flash在基于屏幕的电脑任务评测中，与主要AI模型相比取得了具有竞争力的成绩。

谷歌最强调的并不是性能，而是安全。AI一旦开始实际操控屏幕，就会带来新的风险，其中最具代表性的是“提示注入（prompt injection）”攻击。

简单来说，这是一种陷阱指令。黑客把恶意命令悄悄嵌入网页或文档中，正在工作的AI若误把它当成真实指令，就可能做出错误行为。安全研究人员已多次证明，AI代理会被这种方式操控。

谷歌表示，已针对这一攻击进行专门的对抗训练，并发布了两项企业级安全措施。一项是在提交表单、支付或删除数据等难以撤销的操作之前，要求人工确认；另一项是在检测到陷阱指令时自动停止任务。

这两项功能都不是默认开启，需由开发者自行打开。公司建议不要依赖单一机制，而应建立多层防御。谷歌在文档中也明确写道，任何一种安全措施本身都不足够。与宣传其他AI功能时自信满满的语气相比，这种表态显得有所不同。

◆ 竞争焦点已转向安全

率先开拓这一市场的是Anthropic。其“Claude Computer Use”可跨越网页浏览器，进一步处理PC操作系统和文件。谷歌今年早些时候也在Chrome企业版中加入了可自主执行多步骤任务的自动搜索功能。OpenAI也已进入这一市场。

三家公司的竞争焦点正在分化。问题不再是谁能把按钮点得更好，而是谁能在监管严格的企业环境中更安全地运行。

仍待解决的问题也很明确。当前AI对熟悉的界面处理得不错，但面对意外弹窗、验证码（CAPTCHA）或从未见过的界面布局时，仍会手忙脚乱。谷歌没有采用独立模型，而是将其作为默认功能加入，这被视为对技术成熟度的自信；但把安全措施交由用户选择开启，也显示出它仍认为在没有人类监督的情况下全面托付还为时尚早。

谷歌没有公布此次功能相较此前模型究竟提升了多少准确率，也没有披露有哪些企业正在使用。业内建议，企业若要导入此类技术，除了性能指标之外，更重要的是同时设计好人类可介入的机制。AI从聊天机器人迈向“做事的AI”的时代已经开启，但如何安全穿过这道门槛，仍是各自必须面对的课题。

【今日天气】南部济州”有雨”……首尔29度应对午间高温之法