高效且无需训练的单图像扩散模型

查看PDF HTML（实验性）摘要：我们考虑生成图像的问题，这些图像的内部结构——通过跨多个尺度的补丁分布定义——与单一参考图像的内部结构相匹配。最近的方法通过在单幅图像上训练扩散模型来解决这个问题。但即使在这种情况下，训练的计算成本也很高，需要数小时的优化。因此，我们使用不同尺度下的补丁数据集来建模图像。由于该数据集是有限的，并且其补丁的维度较小，因此可以使用最佳的闭合形式去噪器高效地计算噪声补丁的得分函数，从而消除对神经网络训练的需求。我们将这种基于补丁的去噪器集成到一个高效的、无需训练的图像扩散模型中，并描述了我们的方法如何与传统的基于补丁的图像恢复技术相连接。与训练的单图像扩散模型相比，我们的方法实现了最先进的生成质量和多样性，我们展示了应用，包括无条件图像生成、文本引导的风格化、图像对称化和重定向。此外，我们还展示了我们的方法与潜在空间扩散的兼容性，并展示了多种附加加速技术，以实现在一秒钟内生成百万像素的单幅图像，并在几分钟内生成十亿像素的图像。评论：CVPR 2026；项目页面：此链接网址主题：计算机视觉与模式识别（cs.CV）；机器学习（cs.LG）引用为：arXiv:2606.04299 [cs.CV]（或arXiv:2606.04299v1 [cs.CV]用于此版本）https://doi.org/10.48550/arXiv.2606.04299 arXiv发布的DOI通过DataCite（待注册）提交历史从：Haojun Qiu [查看邮箱] [v1] 2026年6月3日星期三 00:05:36 UTC（45,344 KB）