扩散基准：朝向生成扩散变换器的全面评估

############################################################################## # # # ____ _ __ __ _ .-----------. # # | _ \(_)/ _|/ _|_ _ ___(_) ___ _ __ | | # # | | | | | |_| |_| | | / __| |/ _ \| '_ \ | ░▒▓█▓▒░▒▓ | # # | |_| | | _| _| |_| \__ \ | (_) | | | | | ▒▓█████▓▒ | # # |____/|_|_| |_| \__,_|___/_|\___/|_| |_| | ▓███████▓ | # # | ↓ | # # ____ _ | █████████ | # # | __ ) ___ _ __ ___| |__ | ▓███████▓ | # # | _ \ / _ \ '_ \ / __| '_ \ | ▒▓█████▓▒ | # # | |_) | __/ | | | (__| | | | | | # # |____/ \___|_| |_| \___|_| |_| '-----------' # # # # 因为仅靠ImageNet评估已不再足够！ # # # ############################################################################## 📣 通告帖子：呼吁扩散基准：生成扩散变换器的全面基准。帮助我们通过新的评估轴、新的度量标准和对已发布方法的真实再现来扩展基准。此代码库包含扩散基准的统一代码库。它支持通过单一接口在不同生成任务（ImageNet、T2I等）之间进行训练和评估。请参阅下面的部分以获取详细结构。快来加入我们！使用DiffusionBench训练200K迭代的模型生成256×256的文本到图像样本。快速开始设置 # 安装uv项目管理器（如果尚未安装） curl -LsSf https://astral.sh/uv/install.sh | sh # 安装依赖项 uv sync # 准备数据 uv run python scripts/prepare.py --data {all,imagenet,t2i,eval} # 下载预训练模型 uv run hf download diffusion-bench/diffusion-bench --local-dir pretrained_models --exclude .gitattributes 训练再现流程：阶段1 → 阶段2。首先设置这些环境变量（用于输出目录和W&B日志）： export EXPERIMENT_NAME= < run-name > export ENTITY= < wandb-entity > export PROJECT= < wandb-project > export WANDB_KEY= < key > 阶段1。训练RAE分词器： uv run torchrun --standalone --nproc_per_node=8 \ src/train_stage1.py \ --config [STAGE1_CONFIG_PATH] \ --results-dir results/stage1 --precision bf16 --compile --wandb 阶段2。在VAE/RAE/像素空间上训练扩散模型： uv run torchrun --standalone --nproc_per_node=8 \ src/train.py \ --config [STAGE2_CONFIG_PATH] \ --results-dir results/stage2 --precision bf16 --compile --wandb 评估阶段2训练配置在训练期间进行在线评估（eval:块）。对于发布检查点的独立评估，使用采样配置 — 每个配置嵌入stage_2.ckpt（指向pretrained_models/）和评估时指导，因此权重会自动加载： export EXPERIMENT_NAME= < run-name > #阶段1重建（rFID/PSNR/SSIM/LPIPS） uv run torchrun --nproc_per_node=8 src/offline_eval_stage1.py --config [STAGE1_CONFIG_PATH] # 阶段2生成（FID/IS，GenEval/DPGBench/...） uv run torchrun --nproc_per_node=8 src/offline_eval.py --config [STAGE2_CONFIG_PATH] 可用配置 configs/ ├── stage1/ └── stage2/ ├── training/ │ ├── imagenet/ │ └── t2i/ └── sampling/ ├── imagenet/ └── t2i/ 阶段2跨越VAE (11)、RAE (6)、REG (4) 和 Pixel (3) 家族，在ImageNet和T2I中相同。只需更改路径即可在任务之间切换任何配置。采样集镜像了训练集，但添加了训练的检查点和评估时的指导，因此它直接运行离线评估。对于ImageNet，从CFG-off基线（[STAGE2_CONFIG_PATH].yaml）或每个模型最佳CFG变体（[STAGE2_CONFIG_PATH]-cfg<scale>-t0.0-0.9.yaml）中选择。支持的方法类别方法潜在空间像素空间 RAE（30多个表示编码器）：DINOv2 SigLIP2 WebSSL PE LangPE等 RAEv2（30多个表示编码器）：DINOv2 SigLIP2 WebSSL PE LangPE等 VAE（10多个VAEs）：FLUX.2 FLUX.1 SD3.5 VA-VAE E2E-VAE等输出预测 x-预测 v-预测运输纠正流平均流改进的平均流像素平均流漂移损失流匹配 REPA iREPA 架构 LightningDiT JiT DDT 任务 ImageNet：分类条件生成 T2I：文本到图像生成评估 ImageNet：FID IS T2I：GenEval DPGBench GenAIBench VQAScore 训练后端 DDP FSDP [TODO] 兼容状态详细信息编码代理是代理兼容。请参见skills/以了解设置和工作流程技能。 AutoResearch [TODO] 计划集成AutoResearch（尚不可用）。贡献我们欢迎贡献！请参考docs/contributors.md和docs/contributing.md以获取更多详细信息。鸣谢该代码库基于一些令人惊叹的项目构建： RAE RAEv2 REPA REPA-E JiT 我们感谢作者使他们的工作公开可用。