Magenta RealTime 2：开放和本地实时音乐模型

我们很高兴地分享Magenta RealTime 2（MRT2），这是一个先进的开放模型和高效的实时推理引擎，使您能够在笔记本电脑上构建和演奏人工智能乐器！要开始使用，请在您的MacBook上下载应用程序（需要Apple Silicon）。与其他离线工作的大型生成音乐模型不同，MRT2是一个实时互动模型，您可以通过MIDI和音频控制它，除了文本之外。它执行低延迟的设备端推理，能够瞬时响应您的输入。您可以将其作为独立应用程序运行，放入您的DAW，或集成到其他音乐软件中。除了开放权重模型外，我们还发布了一系列基于MRT2构建的可演奏乐器和体验。利用这个低延迟音乐模型，尝试克隆声音，混合风格，以及创建实时伴奏。为了探索现场音乐模型作为乐器的潜力，今天我们发布了：Magenta RealTime 2，一个开放权重模型（2.4B参数），能够通过MIDI、文本和音频实现高质量的实时音乐合成，并提供低延迟的实时控制。与我们的模型一起发布的还有一个开源Python库（pip install magenta-rt），通过JAX / MLX使用SequenceLayers进行推理。一个用C++编写的推理引擎，使得在MacBook GPU上通过MLX高效生成流媒体音频成为可能。基于推理引擎构建的一系列示例应用程序。这些应用程序为Magenta RealTime 2的创造潜力提供了一瞥，并作为参考帮助您开始构建新乐器和软件集成。十年来，Magenta团队始终倡导人工智能作为音乐家的工具，而不是替代品。我们在2017年发布了首个神经合成器NSynth，它使机器学习进入了可演奏的硬件。我们继续通过DDSP、Piano Genie和Magenta RealTime的第一个版本等项目创建人工智能乐器，后者是我们首个能够生成和混合多种音乐风格的实时音乐模型。MRT2实现了约15倍低于版本一的延迟，适用于标准硬件并可直接集成到DAW中，使这个实时模型成为真正的音乐乐器。一个具有较低延迟和扩展控制的实时音乐模型。Magenta RealTime Magenta RealTime 2 实时音乐生成 ✅ ✅ 所需硬件 TPU/GPU MacBook 帧大小 2s 40ms 控制延迟 ~3s ~200ms 控制方式文本、音频文本、音频、MIDI 模型大小 760M / 220M 2.4B / 230M MRT和MRT2都是通过SpectroStream编解码器上的音频标记序列运行的编解码语言模型，但MRT2通过进行帧级自回归和帧对齐条件达到较低延迟。为了实现表现力的音乐控制，MRT2旨在建模持续跟随MIDI输入的音频，同时样式提示可以是音频或文本；提示通过MusicCoCa嵌入。为了最小化交互延迟，两个信号在每个生成步骤中作为帧对齐的条件注入，允许模型在单个帧（40毫秒，加上其他源的经验延迟，见下文）内对信号变化做出反应。此方法的关键是使用因果滑动窗口注意机制，以在限制内存要求的同时实现连续流生成。除此之外，还结合了可学习的注意力嵌入，以改善对于任意持续时间的泛化和长期上下文生成过程中的上下文驱逐伪影（例如，回响和反馈）。通过MLX的快速C++推理引擎。虽然原始的Magenta RealTime需要高功率的GPU或TPU，但Magenta RealTime 2将实时生成带到了音乐家实际使用的硬件上。为此，我们构建了一个由MLX支持的C++推理引擎，使MRT2能够在Apple Silicon上本地运行。Apple的MLX框架在Python和C++之间提供了链接。更具体地说，我们使用MLX将使用SequenceLayers库实现的MRT2模型编译成一个.mlxfn文件，这是一个包装权重和计算图的模型容器。我们的C++推理引擎加载该文件并使用MLX运行时在Apple Silicon GPU上高效执行。推理引擎处理其他必要的基础设施（模型状态、音频缓冲/重采样、MIDI输入），并可以嵌入到许多支持C++的音乐应用框架中。MLX允许MRT2在Apple Silicon（M系列）上运行：这两种模型大小均可在任何Apple Silicon Mac上运行离线（非实时）推理，而实时流（生成音频速度快于播放）支持以下设备：模型平台基础（2.4B） MacBook M3 Pro（或更高） MacBook M2 Max（或更高）小型（230M）任何Apple Silicon MacBook，包括MacBook Air 为音乐家和开发者提供的一系列示例应用程序。Magenta RealTime 2的一个关键目标是允许音乐家将实时音乐模型集成到现有软件中...