Imagen

新品

Google Research 的文生图扩散模型研究,结合大语言模型文本理解与高保真图像生成

图像工具 付费 2 0
访问 Imagen 官网

Imagen 是什么?

Imagen 是 Google Research / Brain Team 发布的文本到图像扩散模型研究。官方页面介绍,Imagen 结合大型 Transformer 语言模型的文本理解能力和扩散模型的高保真图像生成能力,目标是在图像逼真度和文本对齐上取得更强表现。

文本生成图像 扩散模型 DrawBench 评测

Imagen 使用冻结的 T5-XXL 编码器将输入文本编码为嵌入,再由条件扩散模型生成 64×64 图像,并通过文本条件超分辨率扩散模型逐步放大到 256×256 和 1024×1024。官方研究发现,扩大预训练文本编码器规模比扩大图像扩散模型规模更能提升图像质量与文本对齐。

核心要点

强文本理解

借助大型预训练语言模型编码提示词,在复杂描述、组合关系和长文本提示上提升对齐能力。

级联扩散生成

先生成低分辨率图像,再用超分辨率扩散模型逐级提升细节和清晰度。

COCO FID / DrawBench

官方页面称 Imagen 在 COCO FID 和 DrawBench 人类偏好评测中表现突出。

未开放公开 Demo

官方明确提到出于负责任 AI 与安全考虑,当时未发布代码或公共 Demo。

Imagen 更适合作为理解 Google 文生图路线、扩散模型架构和评测方法的研究资料入口,而不是一个可直接在线使用的绘图工具。若需要实际生成图片,应选择 Google 当前开放的图像生成产品或 API,并核对版权、安全和商用条款。

产品信息

发布团队
Google Research / Brain Team
形态
研究页面与论文
技术路线
T5 文本编码器 + 级联扩散模型
可用性
官方未开放代码或公共 Demo

适用场景

文生图研究学习

了解大语言模型文本编码器与扩散模型结合的设计思路。

评测方法参考

参考 DrawBench 对组合性、空间关系、长文本和稀有词等提示维度的设计。

图像生成路线对比

与 DALL·E、GLIDE、Latent Diffusion 等方法进行架构和评测维度对比。

负责任 AI 案例

研究官方对数据偏见、滥用风险和不公开发布决策的说明。

Imagen

Imagen

图像工具

前往官网
imagen.research.google/

数据统计

浏览量 2
点击量 0
收录时间 2026-05-14
更新时间 2026-05-15