返回

文章详情

扩散基准:朝向生成扩散变换器的全面评估

Hacker News2026年6月24日 02:12

############################################################################## # # # ____ _ __ __ _ .-----------. # # | _ \(_)/ _|/ _|_ _ ___(_) ___ _ __ | | # # | | | | | |_| |_| | | / __| |/ _ \| '_ \ | ░▒▓█▓▒░▒▓ | # # | |_| | | _| _| |_| \__ \ | (_) | | | | | ▒▓█████▓▒ | # # |____/|_|_| |_| \__,_|___/_|\___/|_| |_| | ▓███████▓ | # # | ↓ | # # ____ _ | █████████ | # # | __ ) ___ _ __ ___| |__ | ▓███████▓ | # # | _ \ / _ \ '_ \ / __| '_ \ | ▒▓█████▓▒ | # # | |_) | __/ | | | (__| | | | | | # # |____/ \___|_| |_| \___|_| |_| '-----------' # # # # 因为仅靠ImageNet评估已不再足够! # # # ############################################################################## 📣 通告帖子:呼吁扩散基准:生成扩散变换器的全面基准。帮助我们通过新的评估轴、新的度量标准和对已发布方法的真实再现来扩展基准。此代码库包含扩散基准的统一代码库。它支持通过单一接口在不同生成任务(ImageNet、T2I等)之间进行训练和评估。请参阅下面的部分以获取详细结构。快来加入我们! 使用DiffusionBench训练200K迭代的模型生成256×256的文本到图像样本。 快速开始设置 # 安装uv项目管理器(如果尚未安装) curl -LsSf https://astral.sh/uv/install.sh | sh # 安装依赖项 uv sync # 准备数据 uv run python scripts/prepare.py --data {all,imagenet,t2i,eval} # 下载预训练模型 uv run hf download diffusion-bench/diffusion-bench --local-dir pretrained_models --exclude .gitattributes 训练再现流程:阶段1 → 阶段2。 首先设置这些环境变量(用于输出目录和W&B日志): export EXPERIMENT_NAME= < run-name > export ENTITY= < wandb-entity > export PROJECT= < wandb-project > export WANDB_KEY= < key > 阶段1。训练RAE分词器: uv run torchrun --standalone --nproc_per_node=8 \ src/train_stage1.py \ --config [STAGE1_CONFIG_PATH] \ --results-dir results/stage1 --precision bf16 --compile --wandb 阶段2。 在VAE/RAE/像素空间上训练扩散模型: uv run torchrun --standalone --nproc_per_node=8 \ src/train.py \ --config [STAGE2_CONFIG_PATH] \ --results-dir results/stage2 --precision bf16 --compile --wandb 评估阶段2训练配置在训练期间进行在线评估(eval:块)。对于发布检查点的独立评估,使用采样配置 — 每个配置嵌入stage_2.ckpt(指向pretrained_models/)和评估时指导,因此权重会自动加载: export EXPERIMENT_NAME= < run-name > #阶段1重建(rFID/PSNR/SSIM/LPIPS) uv run torchrun --nproc_per_node=8 src/offline_eval_stage1.py --config [STAGE1_CONFIG_PATH] # 阶段2生成(FID/IS,GenEval/DPGBench/...) uv run torchrun --nproc_per_node=8 src/offline_eval.py --config [STAGE2_CONFIG_PATH] 可用配置 configs/ ├── stage1/ └── stage2/ ├── training/ │ ├── imagenet/ │ └── t2i/ └── sampling/ ├── imagenet/ └── t2i/ 阶段2跨越VAE (11)、RAE (6)、REG (4) 和 Pixel (3) 家族,在ImageNet和T2I中相同。只需更改路径即可在任务之间切换任何配置。采样集镜像了训练集,但添加了训练的检查点和评估时的指导,因此它直接运行离线评估。对于ImageNet,从CFG-off基线([STAGE2_CONFIG_PATH].yaml)或每个模型最佳CFG变体([STAGE2_CONFIG_PATH]-cfg<scale>-t0.0-0.9.yaml)中选择。 支持的方法 类别 方法 潜在空间 像素空间 RAE(30多个表示编码器):DINOv2 SigLIP2 WebSSL PE LangPE等 RAEv2(30多个表示编码器):DINOv2 SigLIP2 WebSSL PE LangPE等 VAE(10多个VAEs):FLUX.2 FLUX.1 SD3.5 VA-VAE E2E-VAE等 输出预测 x-预测 v-预测 运输 纠正流 平均流 改进的平均流 像素平均流 漂移损失 流匹配 REPA iREPA 架构 LightningDiT JiT DDT 任务 ImageNet:分类条件生成 T2I:文本到图像生成 评估 ImageNet:FID IS T2I:GenEval DPGBench GenAIBench VQAScore 训练后端 DDP FSDP [TODO] 兼容状态 详细信息 编码代理 是 代理兼容。请参见skills/以了解设置和工作流程技能。 AutoResearch [TODO] 计划集成AutoResearch(尚不可用)。 贡献 我们欢迎贡献!请参考docs/contributors.md和docs/contributing.md以获取更多详细信息。 鸣谢 该代码库基于一些令人惊叹的项目构建: RAE RAEv2 REPA REPA-E JiT 我们感谢作者使他们的工作公开可用。

赞助内容

NordVPN Next-gen Antivirus

本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。

请我喝杯咖啡