谷歌推出”智能操控”时代新纪元 – 阿尔法二代电脑操控模型”吉米尼2.5″发布
谷歌将人工智能(AI)的概念扩展到另一个层次。迄今为止,AI主要在文字和图像领域活动,如撰写文章或绘制图画。然而,谷歌于本月7日(当地时间)首次公开的“Gemini 2.5 计算机使用模型”超越了简单生成信息的层级,可以直接操作实际的电脑屏幕。 Gemini 2.5 计算机使用模型演示视频(来源=@GoogleYouTube) 谷歌依托其AI平台“Gemini 2.5 Pro”的视觉识别和逻辑推理能力开发了这一模型。 该模型能够理解用户下达的指令,自主进行网页或应用程序界面的按钮点击或文字输入。例如,它可以完成网站的会员注册表单、在电子表格中输入数据,甚至预订系统中的安排调度等任务。 谷歌介绍说,该模型是“在Web和移动环境中比现有AI更精确和响应更快速的新型AI”。开发者可以通过“Google AI Studio”和“Vertex AI”平台使用这项功能。 传统AI主要通过‘API(应用程序接口)’方式进行数据交换。然而,大多数数字工作的许多环节仍需人眼观看并亲自操作。例如,在网站的输入栏中填写信息并提交等动作是属于需人力完成的典型任务。 ‘Gemini 2.5 计算机使用模型’自动执行这一流程。模型在接受到用户的请求、屏幕截图及前一动作记录后,分析出“需点击哪个按钮”、“需输入怎样的文本”。AI的判断被转换为“点击”、“输入”、“滚动”等指令并在实际屏幕上执行。 Gemini 2.5 计算机使用模型操作流程(资料提供=谷歌) 任务执行后,新屏幕被再次传回给模型,模型重复这一过程,直至完成目标任务。谷歌称其为“AI观看屏幕并重复行为直至完成工作的循环结构”。迄今AI主要是通过语言进行工作,而这一模型更像是“拥有眼睛和手的AI”概念。 谷歌称,Gemini 2.5 计算机使用模型在评估网络和移动操作能力的各种指标中均超越了竞争对手。在主流的性能评价中如“Online-Mind2Web”、“WebVoyager”和“AndroidWorld”中均居于上位圈。 ...
Read more