阿里开源图像大模型，实测中文渲染能力绝了！精准搞定复杂字体排版，硬刚字节OpenAI

eric 2025年8月6日 23:49:15 人工智能 21

智东西

作者 | 陈骏达

编辑 | 李水青

国产SOTA（最佳表现）级开源图像生成模型，来了！

智东西8月5日报道，今天，阿里开源了Qwen-Image，通义千问系列中首个图像生成基础模型。Qwen-Image主打复杂文本渲染能力，能在不同场景中，准确地生成不同语种、风格的文字，甚至可以写毛笔字书法，或是直接生成带有文本和图像的PPT页面。

下图中，Qwen-Image不仅准确还原了提示词中的“宫崎骏”风格要求，还随着构图的景深变化，将“云存储”、“云计算”等字样准确地渲染。文字与画面的融合较为自然。

Qwen-Image同样准确生成英文内容。它根据英文提示词生成了一个书店的橱窗场景，所有指定的文字都被准确还原，并且它还自动为每本书生成了不同的风格化字体以及封面，与书名契合。

除了文本处理，Qwen-Image在通用图像生成方面支持了多种艺术风格。从照片级写实场景到印象派绘画，从动漫风格到极简设计都掌握了。

Qwen-Image是一个20B的模型，使用了MMDiT（多模态扩散Transformer）架构，其中“MM”代表的是模型生成图像、文本等多模态内容的能力，“DiT”则代表了这是一个扩散Transformer。

千问团队在多个公开基准上对Qwen-Image进行了评估，比较对象为全球头部的开源、闭源图像生成模型，共获得12项SOTA（最佳表现）。在通用图像生成测试GenEval、DPG和OneIG-Bench，以及图像编辑测试GEdit、ImgEdit和GSO上，Qwen-lmage超过了Flux.1、BAGEL等开源模型、字节跳动的SeedDream 3.0和OpenAI的GPT Image 1（High）。

在用于文本渲染的LongText-Bench、ChineseWord和TextCraft基准测试上的结果表明，Qwen-Image在文本渲染方面表现尤为出色，特别是在中文文本渲染上，大幅领先现有的最先进模型，包括SeedDream 3.0和GPT Image 1（High）。