Moebius：0.2B 图像修复模型，具备 10B 级性能

Moebius：0.2B 轻量级图像修复框架，具备 10B 级性能 (*) 平等贡献，( † ) 项目负责人，( 📧 ) 通讯作者。1 华中科技大学 2 VIVO AI 实验室摘要：虽然 10B 级工业基础模型已经推动了图像修复的边界，但其高昂的计算成本严重阻碍了实际部署。构建一个高度优化的任务专用专家是一个有希望的解决方案；然而，极端的结构压缩不可避免地会触发严重的表示瓶颈。为了解决这个问题，我们提出了 Moebius，一个高效的轻量级修复框架。我们通过引入局部-λ 混合交互 (LλMI) 模块系统地重建了扩散骨干网络。它由局部-λ 和交互-λ 模块组成，优雅地将空间上下文和全局语义先验汇总为固定大小的线性矩阵，同时保留复杂的潜在交互，同时大幅减少参数。此外，为了释放这种高度紧凑架构的全部表示能力，我们将其与自适应多粒度蒸馏策略联动。该策略严格在潜在空间中操作，以避免昂贵的像素空间解码，动态平衡多种基于梯度的损失，以实现高保真度的对齐。通过在自然和人像基准上进行的大量实验表明，这种最佳协同使 Moebius 能与 10B 级工业通用模型 FLUX.1-Fill-Dev 竞争，甚至超越其生成质量。值得注意的是，Moebius 使用的参数少于 2%（0.22B 对比 11.9B），同时在总推理时间上实现了超过 15 倍的加速，为高保真度图像修复设定了新的效率标准。方法：Moebius 的整体管线。我们采用了配备潜在类别指导 (LCG) 的潜在扩散模型 (LDM) 框架。为了实现极端的架构效率，去噪 U-Net 被系统地重构，采用我们提出的 LλMI 模块（详见第 3.2 节）。此外，在训练过程中应用了自适应多粒度蒸馏策略（第 3.3 节），以使我们的轻量专家与高容量教师对齐，成功减轻了极端结构压缩引起的容量下降。亮点：📉 极端参数效率（< 2%）：Moebius 仅使用 0.22B（226M）参数，代表了比庞大的工业巨头 FLUX.1-Fill-Dev（11.9B）少于 2% 的体积。它打破了高计算的故事，使高质量修复在消费级和边缘设备上变得可及。⚡ 15 倍推理加速（每步 26 毫秒）：在单个 GPU 上达到仅 26.01 毫秒的惊人推理延迟。结合优化的采样步，Moebius 的总体运行时相比 10B 级模型整体加速超过 15 倍。🏆 10B 级修复质量（在 6 个基准测试中与 FLUX.1-Fill-Dev 同等或超越）：尺寸缩小并不意味着表示降级。通过架构和蒸馏的协同优化，Moebius 在自然场景（Places2）和人像场景（CelebA-HQ，FFHQ）这 6 个综合基准测试中，表现与部分情境（例如复杂纹理和面部合理性）超越 10B 级顶尖通用模型（FLUX.1-Fill-Dev，SD3.5 Large-Inpainting）齐平。💡 协同核心创新：架构设计（LλMI模块）：通过将空间上下文和全局语义先验浓缩为固定大小的线性矩阵，重构自注意力和交叉注意力，绕过二次计算开销。自适应多粒度蒸馏策略：将表示能力从我们的 PixelHacker（教师）严格转移到潜在空间（避免昂贵的像素空间解码）。它通过对齐多粒度监督——从微观中间特征到宏观扩散轨迹——来弥补巨大的容量差距，同时通过梯度范数自适应损失加权机制动态平衡训练。最佳协同平衡：系统探索紧凑结构与蒸馏之间的相互约束和上限。通过映射这种架构-蒸馏协同前沿，我们确保我们的 0.22B Moebius（学生）吸收 PixelHacker（教师）的最大语义推理，而不会触发表示饱和。🚀 针对特定任务的专家，优于臃肿的通用模型：Moebius 不盲目扩大，而是回答一个基本问题：当任务被明确定义时，模型能否更智能、更轻、更快？它作为一个高度优化的专家，解放了现实世界的图像修复和 AI 目标去除，避免了参数膨胀。可视化 - 自然场景 - - 人像场景 - 在自然场景（Places2）上的比较在人像场景（CelebA-HQ，FFHQ）上的比较