阿里开源全新图像模型Qwen-Image-Layered，可实现PS级图层精准编辑生成

本文最后更新于158 天前，其中的信息可能已经过时，如有错误请发送邮件到big_fw@foxmail.com

12月22日，阿里开源全新图像生成模型Qwen-Image-Layered，首次在模型内实现PS级的图层理解与图像生成。

千问新模型采用自研创新架构，可将图片“拆解”成多个图层，就像个专业设计师用Photoshop分层作图修图，可实现几乎“零漂移”的AI图像精准编辑，彻底解决AI生图的一致性难题，加速大模型在专业设计领域的现实落地。

Qwen-Image-Layered打破了主流视觉大模型的“扁平式思维”，模型通过“分层”和“补全”建立起对现实世界更准确的“物理式理解”，让AI从平面的“看图说话”迈向真实的“空间重构”。

在当前的视觉大模型领域，图像一致性编辑始终是一个核心挑战。AI生图有创意但难编辑，主要是因为大模型对图片的理解是扁平的，是一堆像素点紧密耦合在一起，而不能像人一样感知出图中物体的远近、遮挡等物理关系。

因此，让大模型生图和编辑就像抽卡“开盲盒”：比如你想把画里的猫往左挪10厘米，但AI完全不知道猫左挪后空出来的背景会有什么，只能再重新生成一次，猫和背景全都变了样。

这种“牵一发而动全身”的随机性，让AI绘图在追求极致精准的商业广告设计、UI界面设计、影视后期处理等专业领域，始终只能作为一种参考，而无法真正取代专业工具。

Qwen-Image-Layered 的出现，意味着视觉大模型从“像素预测”转向“结构重组”。

千问团队自研了一种全新的RGBA-VAE编码，在传统的RGB图像中引入代表透明度图层的“Alpha通道”，让模型有了图层的概念；同时新模型采用了创新的VLD-MMDiT架构，配合独特的“图层级3D位置编码”，让AI自动“脑补”被遮挡部分的背景纹理，实现对图层和空间的更深入理解和生成。

据了解，为训练这种能力，千问团队从海量的专业Photoshop（PSD）文件中提取真实图层逻辑，让AI从出生起就拥有专业设计师的“分层思维”。

版权声明：

本博客部分内容为转载文章，旨在分享有价值的信息，版权归原作者所有。

转载仅为个人学习与交流目的，不对文章观点负责，亦不用于任何商业用途。

如涉及版权问题，请联系本人删除。

推荐文章