[谷歌推出新一代视频生成AI"Veo 3"，开启内容创作新纪元]

从文本到视频，如今又加入了音频功能。随着音频包含的视频生成时代的到来，谷歌推出了名为“FLOW”的视频编辑集成工具，以加强对创作者的支持，不过目前中国尚未引入这项技术。

5月20日至21日，在美国加利福尼亚州山景城举行的“谷歌 I/O 2025”开发者大会上，谷歌 DeepMind 全面发布了其最新的视频生成模型“Veo 3”。

Veo 3 是一个基于用户文本或图像描述自动生成短视频的人工智能模型。与前一代模型 Veo 2 不同，此次该模型甚至能够自动生成声音元素。不仅仅是画面，角色台词、背景噪音、音效等音频元素都能够自然地融合在一起。谷歌将这一功能称为“给予电影制作人和讲故事者新可能的创新”。

Veo 3 的核心是其接近于实景的高质量。视频以 4K 分辨率输出，动作自然、物理法则应用、质感表现都接近真实。比如只需输入“雨中的城市”这种文本描述，就可以生成包含车辆声和人群喧哗声的逼真城市场景视频。

该模型还内置了一个名为“Prompt Rewriter”的功能，可以更精确地分析用户输入的描述。这一功能能够根据用户的简短描述，自动补充背景音、镜头角度、人物台词等元素，使用户即便没有专业视频制作经验也能轻松创建复杂内容。

此次发布中，谷歌还介绍了一款以 Veo 3 为核心的视频制作集成工具“Flow”。该工具与图像生成模型 Imagen 4、对话式 AI Gemini 相结合，从故事策划到视频完成，能够在一个平台上完成创作过程。

在 Flow 中，可以设置视频的开场和结尾场景，指定镜头移动方向，保持角色外观一致性，反映特定风格，编辑场景等，几乎可以直接控制视频制作的所有过程。此外，其中还包括了对象添加、删除、扩充绘图、动作控制、角色动画化等高级功能，可以获得专业级的结果。

目前 Veo 3 以谷歌的付费订阅服务的一部分形式提供。仅在美国优先提供，目前在中国尚无法使用。最高级别的访问是通过“Google AI Ultra”计费计划进行的，每月需支付 249.99 美元（约合人民币 1800 元）。此外，还介绍了多种访问方式，但在中国，所有方式都仍有限制。

目前 Veo 3 生成的视频长度约为 8 秒，与 OpenAI 的 “Sora” 模型相比，保持了性能优势。据悉，该技术可能给视频行业的创作方式带来变化。

Veo 3 为内容创作者提供了新的机会，同时为行业结构调整发出了信号。在提出视频生成 AI 技术新标准的同时，也意味着未来内容制作方式可能发生全盘变革。然而，谨慎的技术应用和技术伦理的社会性讨论同样需要同步进行。预计中国用户还需一段时间才能亲身体验这项技术。

汝矣岛广场公寓快速重建 – 高达56层、1,391户的大型社区正在推进