Moebius:0.2B 图像修复模型,具备 10B 级性能
Moebius:0.2B 轻量级图像修复框架,具备 10B 级性能 (*) 平等贡献,( † ) 项目负责人,( 📧 ) 通讯作者。1 华中科技大学 2 VIVO AI 实验室 摘要:虽然 10B 级工业基础模型已经推动了图像修复的边界,但其高昂的计算成本严重阻碍了实际部署。构建一个高度优化的任务专用专家是一个有希望的解决方案;然而,极端的结构压缩不可避免地会触发严重的表示瓶颈。为了解决这个问题,我们提出了 Moebius,一个高效的轻量级修复框架。我们通过引入局部-λ 混合交互 (LλMI) 模块系统地重建了扩散骨干网络。它由局部-λ 和交互-λ 模块组成,优雅地将空间上下文和全局语义先验汇总为固定大小的线性矩阵,同时保留复杂的潜在交互,同时大幅减少参数。此外,为了释放这种高度紧凑架构的全部表示能力,我们将其与自适应多粒度蒸馏策略联动。该策略严格在潜在空间中操作,以避免昂贵的像素空间解码,动态平衡多种基于梯度的损失,以实现高保真度的对齐。通过在自然和人像基准上进行的大量实验表明,这种最佳协同使 Moebius 能与 10B 级工业通用模型 FLUX.1-Fill-Dev 竞争,甚至超越其生成质量。值得注意的是,Moebius 使用的参数少于 2%(0.22B 对比 11.9B),同时在总推理时间上实现了超过 15 倍的加速,为高保真度图像修复设定了新的效率标准。 方法:Moebius 的整体管线。我们采用了配备潜在类别指导 (LCG) 的潜在扩散模型 (LDM) 框架。为了实现极端的架构效率,去噪 U-Net 被系统地重构,采用我们提出的 LλMI 模块(详见第 3.2 节)。此外,在训练过程中应用了自适应多粒度蒸馏策略(第 3.3 节),以使我们的轻量专家与高容量教师对齐,成功减轻了极端结构压缩引起的容量下降。 亮点:📉 极端参数效率(< 2%):Moebius 仅使用 0.22B(226M)参数,代表了比庞大的工业巨头 FLUX.1-Fill-Dev(11.9B)少于 2% 的体积。它打破了高计算的故事,使高质量修复在消费级和边缘设备上变得可及。⚡ 15 倍推理加速(每步 26 毫秒):在单个 GPU 上达到仅 26.01 毫秒的惊人推理延迟。结合优化的采样步,Moebius 的总体运行时相比 10B 级模型整体加速超过 15 倍。🏆 10B 级修复质量(在 6 个基准测试中与 FLUX.1-Fill-Dev 同等或超越):尺寸缩小并不意味着表示降级。通过架构和蒸馏的协同优化,Moebius 在自然场景(Places2)和人像场景(CelebA-HQ,FFHQ)这 6 个综合基准测试中,表现与部分情境(例如复杂纹理和面部合理性)超越 10B 级顶尖通用模型(FLUX.1-Fill-Dev,SD3.5 Large-Inpainting)齐平。💡 协同核心创新:架构设计(LλMI模块):通过将空间上下文和全局语义先验浓缩为固定大小的线性矩阵,重构自注意力和交叉注意力,绕过二次计算开销。自适应多粒度蒸馏策略:将表示能力从我们的 PixelHacker(教师)严格转移到潜在空间(避免昂贵的像素空间解码)。它通过对齐多粒度监督——从微观中间特征到宏观扩散轨迹——来弥补巨大的容量差距,同时通过梯度范数自适应损失加权机制动态平衡训练。最佳协同平衡:系统探索紧凑结构与蒸馏之间的相互约束和上限。通过映射这种架构-蒸馏协同前沿,我们确保我们的 0.22B Moebius(学生)吸收 PixelHacker(教师)的最大语义推理,而不会触发表示饱和。🚀 针对特定任务的专家,优于臃肿的通用模型:Moebius 不盲目扩大,而是回答一个基本问题:当任务被明确定义时,模型能否更智能、更轻、更快?它作为一个高度优化的专家,解放了现实世界的图像修复和 AI 目标去除,避免了参数膨胀。可视化 - 自然场景 - - 人像场景 - 在自然场景(Places2)上的比较 在人像场景(CelebA-HQ,FFHQ)上的比较
本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。
☕请我喝杯咖啡