谷歌Gemini 3.5 Flash默认搭载”电脑使用”功能……AI代理竞争加速

Photo of author

By Global Team

谷歌将“电脑使用(computer use)”功能作为默认工具,加入到主力AI模型“Gemini 3.5 Flash”中。AI正从只回答问题,走向直接代人处理工作的阶段。

谷歌24日(当地时间)表示,已将“电脑使用”功能作为默认工具加入其AI模型“Gemini 3.5 Flash”。AI可以识别屏幕,自主进行点击、输入文字和滚动操作,不仅可用于网页浏览器,也可在智能手机和PC环境中运行。

这一功能并非全新。去年10月,谷歌曾以独立模型形式率先推出同类功能。此次不同之处在于,无需单独调用,已可直接在主力模型中使用。

开发者无需在两个模型之间来回切换。谷歌DeepMind产品经理马特奥·基罗斯表示,这次整合使Flash能够看屏幕、作判断并采取行动。

◆ 从聊天机器人到做事的AI

Gemini 3.5 Flash在智能手机屏幕上直接浏览并分类应用功能。谷歌将其作为处理重复性工作的AI代理示例加以展示。AI代理是指接受人类指令后,能够自主处理多个步骤任务的AI,与仅仅回答问题的聊天机器人并非同一概念。

谷歌主打的应用场景是重复性工作自动化。即使人不逐一点击屏幕,AI也能检查软件并发现错误;还可负责在多个网站上收集资料、填写表单,或从公司内部系统提取数据。

业内认为,这意味着AI已从停留在回答层面,进入代替实际劳动的阶段。这被解读为AI产业重心正从聊天机器人转向“会做事的助手”的一个缩影。

◆ 谷歌把安全机制放在前台

谷歌公开的OSWorld-Verified性能对比显示,Gemini 3.5 Flash在基于屏幕的电脑任务评测中,与主要AI模型相比取得了具有竞争力的成绩。

谷歌最强调的并不是性能,而是安全。AI一旦开始实际操控屏幕,就会带来新的风险,其中最具代表性的是“提示注入(prompt injection)”攻击。

简单来说,这是一种陷阱指令。黑客把恶意命令悄悄嵌入网页或文档中,正在工作的AI若误把它当成真实指令,就可能做出错误行为。安全研究人员已多次证明,AI代理会被这种方式操控。

谷歌表示,已针对这一攻击进行专门的对抗训练,并发布了两项企业级安全措施。一项是在提交表单、支付或删除数据等难以撤销的操作之前,要求人工确认;另一项是在检测到陷阱指令时自动停止任务。

这两项功能都不是默认开启,需由开发者自行打开。公司建议不要依赖单一机制,而应建立多层防御。谷歌在文档中也明确写道,任何一种安全措施本身都不足够。与宣传其他AI功能时自信满满的语气相比,这种表态显得有所不同。

◆ 竞争焦点已转向安全

率先开拓这一市场的是Anthropic。其“Claude Computer Use”可跨越网页浏览器,进一步处理PC操作系统和文件。谷歌今年早些时候也在Chrome企业版中加入了可自主执行多步骤任务的自动搜索功能。OpenAI也已进入这一市场。

三家公司的竞争焦点正在分化。问题不再是谁能把按钮点得更好,而是谁能在监管严格的企业环境中更安全地运行。

仍待解决的问题也很明确。当前AI对熟悉的界面处理得不错,但面对意外弹窗、验证码(CAPTCHA)或从未见过的界面布局时,仍会手忙脚乱。谷歌没有采用独立模型,而是将其作为默认功能加入,这被视为对技术成熟度的自信;但把安全措施交由用户选择开启,也显示出它仍认为在没有人类监督的情况下全面托付还为时尚早。

谷歌没有公布此次功能相较此前模型究竟提升了多少准确率,也没有披露有哪些企业正在使用。业内建议,企业若要导入此类技术,除了性能指标之外,更重要的是同时设计好人类可介入的机制。AI从聊天机器人迈向“做事的AI”的时代已经开启,但如何安全穿过这道门槛,仍是各自必须面对的课题。

谷歌公开的图像
谷歌公开的图像