Krea 2 技术报告

引言在过去几年中，图像生成取得了显著进展。扩散和流匹配模型能够生成高分辨率图像，产生清晰的摄影真实感和稳定的结构，渲染丰富的文本，编码广泛的世界知识，并精确地遵循用户提示。这些改进受到多个相互作用因素的推动，包括可扩展的变压器架构、改进的标题和文本编码器、更好的潜在表示以及经过后训练的管道技术。然而，随着该领域对这些能力的可靠性进行优化，许多系统趋向于一组狭窄的默认美学。尽管作为有效的生产工具，这使得它们在创造性探索的引擎中效果不佳，因为用户通常需要在多种风格、情绪、构图和视觉方向之间进行搜索，而不是收到单一经过打磨的默认选项。为了解决这些局限性，我们提出了 Krea 2，一系列专注于创造性探索的基础模型。Krea 2 的模型基于这样的信念：图像生成应该是一个探索性媒介：足够富有表现力，以涵盖多种美学，并且足够可控，以便创作者能够驾驭它们。我们从头开始构建了一个大规模数据基础设施和分布式训练框架，以策划一个全面的预训练数据集，涵盖广泛的世界知识和风格。利用这一基础设施，我们通过跨越预训练、中级训练、监督微调 (SFT)、偏好优化和强化学习 (RL) 的多阶段管道训练表现力模型，每个阶段旨在逐步优化模型输出的分布。我们通过彻底的消融研究开发了一个简单而高效的扩散变压器 (DiT) 架构。我们的模型包含多个加速收敛的组件，包括 iREPA、改进的变分自编码器 (VAE) 和 Qwen3-VL。我们还集成了几项架构改进，包括分组查询注意力 (GQA)、sigmoid 蓄意注意力、轻量级时间步调制和文本编码特征的多层特征聚合，这些共同提高了训练的稳定性和效率。强大的基础模型只有在用户可以可靠地触及其关心的分布部分时才有用。在训练中，模型学习来自丰富、精心构建的标题，这些标题以密集的视觉细节描述图像。在实践中，用户输入往往更简短、更模糊，并受到许多不同表达习惯的影响。有些用户用自然语言描述场景；另一些用户会指向情绪、风格或参考图像。这在模型学习的条件空间和在推理时表达创造性意图的方式之间造成了差距。为了缩小这个差距，我们构建了两个系统，使 Krea 2 更具探索性，并可以从文本和图像输入中进行引导：一个提示扩展器和一个风格参考系统。提示扩展器将简单或不具体的用户提示映射到更丰富的视觉方向，而不覆盖用户的意图。它通过在开源 LLM 的基础上，进行两阶段的 SFT 和 RL 管道进行训练，目标不仅是提高图像质量，还要鼓励创造性变化和可控的探索。作为对这个文本接口的补充，风格参考系统允许用户在语言不足时通过图像表达视觉意图。它允许用户在最小内容泄漏的情况下注入一个或多个参考图像的风格或情绪，同时提供对风格强度和加权风格混合的精细控制。这些组件共同定义了 Krea 2 作为探索生成的基础模型。 Krea 2 旨在揭示广阔的视觉空间，并为用户提供实际的方式通过文本和基于图像的控制在其中移动，而不仅仅是针对单一的经过打磨的默认设置。Krea 2 排名人工分析排行榜前十名的文本到图像模型，在独立实验室中名列第二。Krea 2 作为一个全面的基线，为创意生成体验提供支持，同时保持竞争力。数据数据策划原则在详细说明我们的数据管道之前，首先要确定什么构成我们目的的良好数据组合。良好的组合并不只是由“高质量”图像组成。鉴于我们的目标是构建一个表现力丰富、风格多样的模型，多样性和广泛的领域覆盖是必不可少的。我们认为，传统的模型过滤方法使用美学评分和图像质量评估 (IQA) 模型，带来了隐性偏见。例如，此类方法可能将模糊图像归类为低质量图像，尽管运动模糊或柔和可以是故意的艺术选择。此外，我们认为只要标题准确描述其图像，即使是一个不理想的图像在下游用例中也可能是有帮助的：因为模型完全理解了不希望的内容。