阿里开源图像大模型,实测中文渲染能力绝了!精准搞定复杂字体排版,硬刚字节OpenAI
eric 2025年8月6日 23:49:15 人工智能 7
智东西
作者 | 陈骏达
编辑 | 李水青
国产SOTA(最佳表现)级开源图像生成模型,来了!
智东西8月5日报道,今天,阿里开源了Qwen-Image,通义千问系列中首个图像生成基础模型。Qwen-Image主打复杂文本渲染能力,能在不同场景中,准确地生成不同语种、风格的文字,甚至可以写毛笔字书法,或是直接生成带有文本和图像的PPT页面。
下图中,Qwen-Image不仅准确还原了提示词中的“宫崎骏”风格要求,还随着构图的景深变化,将“云存储”、“云计算”等字样准确地渲染。文字与画面的融合较为自然。
Qwen-Image同样准确生成英文内容。它根据英文提示词生成了一个书店的橱窗场景,所有指定的文字都被准确还原,并且它还自动为每本书生成了不同的风格化字体以及封面,与书名契合。
除了文本处理,Qwen-Image在通用图像生成方面支持了多种艺术风格。从照片级写实场景到印象派绘画,从动漫风格到极简设计都掌握了。
Qwen-Image是一个20B的模型,使用了MMDiT(多模态扩散Transformer)架构,其中“MM”代表的是模型生成图像、文本等多模态内容的能力,“DiT”则代表了这是一个扩散Transformer。
千问团队在多个公开基准上对Qwen-Image进行了评估,比较对象为全球头部的开源、闭源图像生成模型,共获得12项SOTA(最佳表现)。在通用图像生成测试GenEval、DPG和OneIG-Bench,以及图像编辑测试GEdit、ImgEdit和GSO上,Qwen-lmage超过了Flux.1、BAGEL等开源模型、字节跳动的SeedDream 3.0和OpenAI的GPT Image 1(High)。
在用于文本渲染的LongText-Bench、ChineseWord和TextCraft基准测试上的结果表明,Qwen-Image在文本渲染方面表现尤为出色,特别是在中文文本渲染上,大幅领先现有的最先进模型,包括SeedDream 3.0和GPT Image 1(High)。