从文本到视频,如今又加入了音频功能。随着音频包含的视频生成时代的到来,谷歌推出了名为“FLOW”的视频编辑集成工具,以加强对创作者的支持,不过目前中国尚未引入这项技术。

5月20日至21日,在美国加利福尼亚州山景城举行的“谷歌 I/O 2025”开发者大会上,谷歌 DeepMind 全面发布了其最新的视频生成模型“Veo 3”。
Veo 3 是一个基于用户文本或图像描述自动生成短视频的人工智能模型。与前一代模型 Veo 2 不同,此次该模型甚至能够自动生成声音元素。不仅仅是画面,角色台词、背景噪音、音效等音频元素都能够自然地融合在一起。谷歌将这一功能称为“给予电影制作人和讲故事者新可能的创新”。
Veo 3 的核心是其接近于实景的高质量。视频以 4K 分辨率输出,动作自然、物理法则应用、质感表现都接近真实。比如只需输入“雨中的城市”这种文本描述,就可以生成包含车辆声和人群喧哗声的逼真城市场景视频。
该模型还内置了一个名为“Prompt Rewriter”的功能,可以更精确地分析用户输入的描述。这一功能能够根据用户的简短描述,自动补充背景音、镜头角度、人物台词等元素,使用户即便没有专业视频制作经验也能轻松创建复杂内容。

此次发布中,谷歌还介绍了一款以 Veo 3 为核心的视频制作集成工具“Flow”。该工具与图像生成模型 Imagen 4、对话式 AI Gemini 相结合,从故事策划到视频完成,能够在一个平台上完成创作过程。
在 Flow 中,可以设置视频的开场和结尾场景,指定镜头移动方向,保持角色外观一致性,反映特定风格,编辑场景等,几乎可以直接控制视频制作的所有过程。此外,其中还包括了对象添加、删除、扩充绘图、动作控制、角色动画化等高级功能,可以获得专业级的结果。
目前 Veo 3 以谷歌的付费订阅服务的一部分形式提供。仅在美国优先提供,目前在中国尚无法使用。最高级别的访问是通过“Google AI Ultra”计费计划进行的,每月需支付 249.99 美元(约合人民币 1800 元)。此外,还介绍了多种访问方式,但在中国,所有方式都仍有限制。
目前 Veo 3 生成的视频长度约为 8 秒,与 OpenAI 的 “Sora” 模型相比,保持了性能优势。据悉,该技术可能给视频行业的创作方式带来变化。
Veo 3 为内容创作者提供了新的机会,同时为行业结构调整发出了信号。在提出视频生成 AI 技术新标准的同时,也意味着未来内容制作方式可能发生全盘变革。然而,谨慎的技术应用和技术伦理的社会性讨论同样需要同步进行。预计中国用户还需一段时间才能亲身体验这项技术。
