Un-0：利用耦合振荡器生成图像

跳过内容博客资助加入我们博客资助招聘内容简要。在过去十年中，GPU上执行深度神经网络主导了人工智能，但我们认为在能源效率方面的下一个飞跃需要一种从根本上不同的计算机，即由物理进行计算的计算机。我们构建了Un-0，这是一个由耦合振荡器的模拟系统驱动的图像生成器，是一种新兴物理计算基底的例子。在ImageNet 64×64上，它的FID达到了6.74，匹配了当时领先的传统图像生成方法的质量。权重、训练和消融代码都是公开的。来和我们一起踏上这段非传统的旅程吧！图0：Un-0生成的轨迹样本，显示了随时间推移的变化。每条线的颜色对应着一个相似颜色的框，表示类和随时间生成的图像。 Un-0 在Unconventional AI，我们正在构建一种新型计算机，利用物理法则进行计算。我们的目标是以今天机器所需能源的一小部分运行现代人工智能，降低约1000倍。作为第一步，我们提出：是否可以训练一个物理动态系统来大规模生成图像？今天最佳的人工智能模型是具有变换器骨干的传统深度网络。然而，也有很长的历史寻求通过利用物理系统的动态来提高能源效率的替代方案，例如使用模拟电压和电流而不是数字化数字进行计算的模拟电路的噪音和时间变化行为。这些基于物理的替代方案包括神经形态计算（Mead, 1990）、霍普菲尔德网络（Hopfield, 1982）和水库计算（Jaeger, 2001; Maass et al., 2002）。最近，社区还开发了哈密顿网络（Greydanus et al., 2019）、液态网络（Hasani et al., 2021）、神经波机器（Keller & Welling, 2023）、热力学计算（Coles et al., 2023; Jelinčič, 2025）和库拉莫托振荡器（Miyato et al., 2025; Song et al., 2025）。为了有效利用这些替代计算方法，人工智能任务需要有效地映射到物理系统的动态上。Un-0验证了现代AI工作负载可以在物理基底上比在今天的硬件上更有效地运行。在图像空间中，生成的类别轨迹包括：雏菊、湖边、伞菌、间歇泉、火山、水母。在一个正在增长的社区中，致力于在物理和非常规基底上构建AI [1–8，及其他]，在我们看来，Un-0是迄今为止最具能力的图像生成器，利用一种物理动态系统的模拟。 Un-0在类条件的ImageNet 64×64上达到了FID 6.74，尽管根据参数数量仍有机会改善模型性能，接近传统的前沿。虽然我们探索的物理原语并不新颖，但我们将其扩展到更大的生成基准，执行对动态本身的消融分析，并提供模型行为的解释性分析。我们发布模型权重以及训练、评估和消融代码，以便任何人都可以更容易地实验基于物理系统动态的模型。我们相信超越Un-0是可能的；在将现代AI重新建立在物理动态之上的旅程仍然早期，并且实现约1000倍的能源效率提升并不遥远。 Un-0如何工作图1a：两个类似节拍器的振荡器展示了三种随时间切换的耦合状态：1）漂移（无耦合），2）同步（正耦合）和3）反相同步（负耦合）。想象两个节拍器并排击打（图1a）。在任何时刻，每个振荡器都可以通过其相位来描述，即其摆臂在摆动中的角度。将两个节拍器放在同一张桌子上，它们将通过共享的表面相互作用。根据它们对彼此的敏感程度，即耦合强度，它们可以进入同步或对立。这就是振荡器：一个基本组件，具有一个希望以自身速度旋转的相位，受到邻居力的影响。图1b：耦合振荡器集合演化的示意图。现在将其从两个振荡器扩展到成千上万。大规模的这些振荡器集体，自我组织为模式（图1b）。Un-0的计算引擎是一个大规模的振荡器群体，其中所有振荡器对之间的耦合强度是模型的主要可学习参数。这些耦合振荡器通常被建模为库拉莫托振荡器。具体来说，每个振荡器的运动遵循一个连续应用于时间的单一规则：以其自身的自然频率旋转，受到每个其他振荡器的推动。以下常微分方程（ODE）描述了振荡器随时间的演变。 \dot{\theta}_i = \omega_i + \sum_{j=1}^{N} K_{ij}\,\sin(\theta_j - \theta_i)，\qquad i = 1, \dots, N 每个振荡器i都有一个相位\theta_i \in [0, 2\pi]