谷歌发布最新AI图像生成技术"Imagen 4"，大幅提升文本表现力

谷歌正式发布了其性能最高的文本图像生成模型“Imagen 4”。此次发布被认为是将基于文本的图像生成技术的质量提升到了一个新的高度。特别是图像内文本的表现力显著提升，引起了广泛关注。

通过此次发布，谷歌让任何人都可以在Gemini API和Google AI Studio中使用Imagen 4模型。同时，其推出了以快速处理速度和低廉成本为优势的“Imagen 4 Fast”模型，进一步增强了其实用性。

Imagen 4系列分为三个可根据用途和需求选择的模型。最引人注目的“Imagen 4 Fast”是一个快速图像生成模型。生成一幅图像的成本为0.02美元（约27韩元），适合高速处理和大批量工作。

基本模型“Imagen 4”文本表现力较前作显著提升。对于广告图片或需要准确视觉化重要文字的情况有利。此模型的使用费用为每张图片0.04美元。

最高版本“Imagen 4 Ultra”提供最高水平的细节和文本反映精确度。主要针对具有复杂视觉要求的专业设计、艺术作品和营销领域用户。

谷歌，下一代图像生成模型‘Imagen 4’公开（照片=@Google AI Developers X账户）

Imagen 4和Imagen 4 Ultra支持最多2K分辨率的图像生成。通常“2K分辨率”指的是横向分辨率约为2,000像素，这意味着高质量图像可用于网页内容以及印刷材料。谷歌表示，高分辨率使营销材料或艺术构成所需的细腻表现成为可能。

与之前的模型相比，文本被插入图像的质量也得到了显著提高。例如，输入“画一家快乐的家庭去郊游的样子”，可以更准确地生成包含对应人物的图像。在之前，通常只大致反映句子的意思，或者文本在图片中表现得很不协调的情况较多。

谷歌在此次Imagen 4模型系列中采用了名为“SynthID”的水印技术。这项技术是用一种肉眼看不到的方式来标记生成图像的出处，以便于确认由AI创建的图像的事实，同时不显露痕迹。随着近期对AI图像滥用的担忧加剧，确认由谁制作和如何生成变得更加重要。谷歌表示，通过这种SynthID技术来加强AI的伦理标准。