智东西
作者 | 李水青
编辑 | 心缘
智东西 8 月 19 日报道,今日,阿里推出 Qwen-Image-Edit,这是其此前 8 月 5 日推出的图像生成基础模型 Qwen-Image 的图像编辑版本。(阿里开源图像大模型,实测中文渲染能力绝了!精准搞定复杂字体排版,硬刚字节 OpenAI)
这下,PS 可能真的要被干掉了。如下图所示,用户可以通过 Qwen-Image-Edit 在图中添加指示牌,指定指示牌中上的文本为 "Welcome to Penguin Beach"。下面右图不仅准确生成了用户所需要素,指示牌下还生成了自然的倒影。
Qwen-Image-Edit 支持语义和外观编辑功能
Qwen-Image-Edit 基于其 20B 的 Qwen-Image 模型进⼀步训练,将 Qwen-Image 的文本渲染能力延展至图像编辑领域,实现了对图片中文字的精准编辑。同时,Qwen-Image-Edit 将输⼊图像同时输⼊到 Qwen2.5-VL(实现视觉语义控制)和 VAE Encoder(实现视觉外观控制),从而兼具语义与外观的双重编辑能⼒。
Qwen-Image-Edit 的主要特性包括:
1、语义与外观双重编辑:Qwen-Image-Edit 不仅⽀持 low-level(低阶)的视觉外观编辑,如元素的添加、删除、修改等,要求图片其他区域完全不变,也支持 high-level(高阶)的视觉语义编辑,如 IP 创作、物体旋转、风格迁移等,允许整体像素变化但保持语义一致。
2、精准⽂字编辑:Qwen-Image-Edit 支持中英文双语文字编辑,可在保留原有字体、字号、风格的前提下,直接对图片中的文字进行增、删、改等操作。
3、强⼤的基准性能:在多个公开基准测试中的评估表明,Qwen-Image-Edit 在图像编辑任务上具备 SOTA(最佳表现)性能,是一个强大的图像编辑基础模型。
目前,用户可以访问 Qwen Chat(chat.qwen.ai)并选择 " 图像编辑 " 功能,体验 Qwen-Image-Edit。本文通过实测及一些官方案例,发现 Qwen-Image-Edit 已经能实现比较准确的文本驱动图像编辑,比如在文字生成、视角切换、场景创设、背景变幻等方面都生成较精准,并且主体能保持较高一致性,光线和质感会随场景自然变化。不过,目前其在 Qwen Chat 和 Hugging Face 的免费体验都有次数限制,不能无限使用。
一、支持语义和外观编辑,或成 IP 打造神器
Qwen-Image-Edit 的一大亮点在于其语义和外观编辑功能,智东西对此进行了一手体验。
语义编辑是指在保留原始视觉语义的同时修改图像内容。
如下图所示,当智东西输入以下男士照片,并输入 " 在桌子上生成一个立牌,写着‘沐屿咖啡’ ",Qwen-Image-Edit 能输出准确的文字,人物保持了一致性,镜头拉近了一点,肤色略变黄了一些。
输入图片:
输出图片:
当智东西输入一张小兔子的图片,并输入 " 让小兔子拿着画笔画画 " 的提示词,Qwen-Image-Edit 准确生成了这幅画面,且保持了小兔子形象的特点,延续了风格可爱活泼风格,柔光下毛发甚至更加细腻。
输入图片:
输出图片:
当我进一步要求 " 为小兔子穿上写着‘智东西’的短袖,画板上写上‘ AGI ’ ",Qwen-Image-Edit 也能够准确生成,而且画板上的文字与原本的画作风格一致,其他的元素没有发生变化。
输出图片:
当智东西让 Qwen-Image-Edit 将下面这幅书法中的 " 层 " 改为简体写法时,如输出图所示,Qwen-Image-Edit 这次误将 " 穷 "(标红框)字识别为了 " 层 ",而没有将原本需要修改的字(标蓝框)改正。不过只能说中国文化博大精深,让大模型看草书属实有点为难它了。
输入图片:
输出图片:
Qwen-Image-Edit 还支持视角转换、背景修改、添删细节等外观编辑。当我们输入一张小猴子卡通图片,提出 " 朝向左侧 " 的视角转换要求,Qwen-Image-Edit 能够生成小猴子的侧面,可以说形象和场景完全保持一致,就像动画的前后两帧。我们还特意观察了下手脚的生成情况,没有出现类似 " 六根指头 " 的恐怖谷效应。
输入图片:
输出图片:
当我们输入一张女孩照片,并输入 " 将背景变为高原雪山 " 提示词,Qwen-Image-Edit 快速更换了背景,值得一提的是女生身上的光感也切换到了外场状态,与内场的聚光灯效果有所区别,显得比较自然。
输入图片:
输出图片:
再来看看阿里官方公布的一些案例,以 Qwen 的吉祥物——水豚为例,在输入对应文字后,Qwen-Image-Edit 输出了不同场景的水豚图片。
虽然编辑后的图像与输入图像(最左侧图像)的像素大部分不同,但水豚的形态一致性得到了完美保留。语义编辑功能可以让原创 IP 内容创作变得轻松便捷,且内容丰富多样。
团队还围绕 16 种 MBTI 性格类型设计了一系列编辑提示,基于这些提示生成了一套以吉祥物水豚为原型的 MBTI 主题表情包,这可以用于拓展 IP 的影响力。
新颖的视图合成是语义编辑的另一个关键应用场景。如下面的两个示例图所示,Qwen-Image-Edit 不仅可以将物体旋转 90 度,还可以进行完整的 180 度旋转,让用户能够直接看到物体的背面。
语义编辑的另一个典型应用是风格转换。例如,给定一幅输入肖像,Qwen-Image-Edit 可以轻松地将其转换为各种艺术风格,例如吉卜力工作室的风格。此功能在虚拟化身创建等应用中具有重要价值。
二、增删改特定元素,虚拟传达、模拟场景一键完成
除了语义编辑之外,外观编辑是另一种常见的图像编辑需求。外观编辑强调在添加、移除或修改特定元素时,保持图像的某些区域完全不变。开篇提到的案例展示了一个将招牌添加到场景中的案例。如图所示,Qwen-Image-Edit 不仅成功插入了招牌,还生成了相应的反射。
下面这个例子演示了如何从图像中去除细发丝和其他小物体。
此外,图像中特定字母 "n" 的颜色可以修改为蓝色,从而实现对特定元素的精确编辑。
外观编辑在调整人物背景或更换服装等场景中也有广泛的应用。下面的三幅图分别展示了这些实际用例。
三、精准文本编辑,链式修改书法错误
Qwen-Image-Edit 的另一大亮点在于其精准的文本编辑能力,这源于 Qwen-Image 在文本渲染方面的功底。
以下两个案例生动地展现了 Qwen-Image-Edit 在英文文本编辑方面的性能:
Qwen-Image-Edit 还可以直接编辑中文海报,不仅可以修改大标题文本,还可以对细小复杂的文本元素进行精确调整。
最后,通过一个具体的图像编辑示例,通义团队演示了如何使用链式编辑方法逐步纠正 Qwen-Image 生成的书法作品中的错误:
在这幅作品中,几个汉字存在生成错误,Qwen-Image-Edit 可以逐步纠正这些错误。例如,用户可以在原始图像上绘制边界框来标记需要校正的区域,并指示 Qwen-Image-Edit 修复这些特定区域。在这里,演示者希望 " 稽 " 字能够正确地写在红色框内,而 " 亭 " 字能够准确地呈现在蓝色区域内。
然而,在实际操作中," 稽 " 字相对模糊,模型未能一次性将其正确纠正。" 稽 " 字的右下角部分应该是 " 旨 ",而不是 " 日 "。此时,演示员进一步用红框突出显示 " 日 " 部分,指示 Qwen-Image-Edit 微调此细节,将其替换为 " 旨 "。
通过这种链式、循序渐进的编辑方法,我们可以不断地纠正字符错误,直到达到理想的最终结果。
最终,演示员成功获取了完整正确的《兰亭集序》书法版本。
结语:AI 图像编辑更精准,降低视觉创作门槛
通过体验,我们发现 Qwen-Image-Edit 具备较强大的语义和外观编辑功能。尽管在连续多轮修改中,Qwen-Image-Edit 编辑的精准性和一致性仍有待提高,在草书等更复杂字体生成上有局限,并且使用次数有限制,但其目前已能实现大多物体增删、文字生成、角度转换等实用功能。
随着这一能力还在持续迭代,其有望推动图像生成领域的发展,降低视觉内容创作的技术门槛,并激发更多创新应用。
登录后才可以发布评论哦
打开小程序可以发布评论哦