谷歌正式发布了其性能最高的文本图像生成模型“Imagen 4”。此次发布被认为是将基于文本的图像生成技术的质量提升到了一个新的高度。特别是图像内文本的表现力显著提升,引起了广泛关注。
通过此次发布,谷歌让任何人都可以在Gemini API和Google AI Studio中使用Imagen 4模型。同时,其推出了以快速处理速度和低廉成本为优势的“Imagen 4 Fast”模型,进一步增强了其实用性。

Imagen 4系列分为三个可根据用途和需求选择的模型。最引人注目的“Imagen 4 Fast”是一个快速图像生成模型。生成一幅图像的成本为0.02美元(约27韩元),适合高速处理和大批量工作。
基本模型“Imagen 4”文本表现力较前作显著提升。对于广告图片或需要准确视觉化重要文字的情况有利。此模型的使用费用为每张图片0.04美元。
最高版本“Imagen 4 Ultra”提供最高水平的细节和文本反映精确度。主要针对具有复杂视觉要求的专业设计、艺术作品和营销领域用户。

Imagen 4和Imagen 4 Ultra支持最多2K分辨率的图像生成。通常“2K分辨率”指的是横向分辨率约为2,000像素,这意味着高质量图像可用于网页内容以及印刷材料。谷歌表示,高分辨率使营销材料或艺术构成所需的细腻表现成为可能。
与之前的模型相比,文本被插入图像的质量也得到了显著提高。例如,输入“画一家快乐的家庭去郊游的样子”,可以更准确地生成包含对应人物的图像。在之前,通常只大致反映句子的意思,或者文本在图片中表现得很不协调的情况较多。
谷歌在此次Imagen 4模型系列中采用了名为“SynthID”的水印技术。这项技术是用一种肉眼看不到的方式来标记生成图像的出处,以便于确认由AI创建的图像的事实,同时不显露痕迹。随着近期对AI图像滥用的担忧加剧,确认由谁制作和如何生成变得更加重要。谷歌表示,通过这种SynthID技术来加强AI的伦理标准。

开发者可以在谷歌的Gemini API和Google AI Studio中使用Imagen 4系列模型。开发者们可以利用谷歌提供的文档和“食谱”(功能使用示例)轻松整合该模型。由此,从初创公司到企业开发者,任何人都可以利用Imagen 4开发服务或应用。
谷歌表示Imagen 4的发布不仅仅是新产品的发布,而是以普及高级AI图像生成技术为目标。将文本转换为图像的技术在教育、媒体、营销、电子商务等多个行业快速应用。谷歌通过让更多的开发者便捷使用,旨在增强市场竞争力的同时,确立负责任的技术使用文化。
Imagen 4展示了仅通过文本输入即可制作专业水准图像的AI技术进步。谷歌通过满足图像质量、生成速度、成本、伦理性的三个模型,涵盖了广泛的用户群体。特别是对于需要大规模内容制作或快速原型的从业开发者而言,将成为实用工具。
