分散损失对抗小型语言模型中的嵌入冷凝

分散损失对抗嵌入冷凝，改善小型语言模型的泛化能力 * 等贡献 ICML 2026 一句话总结：是什么使大型语言模型优于小型语言模型？数据？参数？几何可能起到作用！什么是嵌入冷凝？每个语言模型的Transformer层将每个输入标记表示为高维嵌入空间中的一个向量。我们注意到，当这些向量在Transformer层中传递时，它们的行为通常像是被限制在狭窄的锥体中：它们在余弦相似度的测量下指向越来越相似的方向。我们称这种几何现象为嵌入冷凝。这种现象是：特征1 在小型模型中比在大型模型中更严重（图2）。特征2 在干扰因子控制的环境下可重复（图3）。特征3 在模型初始化时出现，并通过预训练得到缓解（图4）。特征4 通过从大模型的知识蒸馏无法解决（图5）。本文的5分钟介绍：本文提出了一种基于观察的语言模型训练改进。我们观察到一种几何现象，称为嵌入冷凝，其中标记嵌入在小型语言模型中崩溃成狭窄的锥形子空间。然后，我们设计了一种称为分散损失的训练目标，以对抗这种影响。图1. 嵌入冷凝现象的示意图。在预训练语言模型中，相同输入序列中所有标记的嵌入在经过多个Transformer层处理后，凝聚成一个狭窄的锥体。这种现象在同一模型系列中小型模型中比大型模型中明显得多，这使我们在第3.3节中的假设得到了动力。特征1：大型模型，冷凝较少。在同一模型系列中，小型模型表现出更严重的嵌入冷凝，标记嵌入向近乎平行的方向崩溃，而大型模型抵制这种崩溃。图2. 嵌入冷凝现象的定性和定量观察。 a. 余弦相似性热图表明，小型模型（如GPT2，Qwen3-0.6B）易于冷凝，因为随着嵌入进入更深的层，标记的余弦相似性越来越正向。相比之下，大型模型（如GPT2-xl，Qwen3-32B）对嵌入冷凝更具抵抗力。 b. 使用Spearman相关性和Kendall’s Tau的量化，展示了“更大模型，冷凝更少”的一致趋势。更多结果可以在图S1中找到。这个效应对输入数据集的选择也相当稳健。图S2. 无论输入文本数据集如何，嵌入冷凝效应是一致的。结果显示对于四个数据集，即(a) wikitext，（b）pubmed_qa，（c）imdb，以及(d) squad。特征2：在控制混杂因素时可重复。为了隔离模型大小的影响与其他混杂因素，我们进行了一个受控实验，在该实验中，我们预训练了GPT2类似模型，仅改变MLP尺寸，同时保持所有其他组件固定，包括层数、嵌入维度、数据集和训练设置。同样的现象得到了观察。图3. 在高度受控的实验中，我们再现了“更大模型，冷凝更少”的观察结果。我们预训练了四个不同尺寸的GPT2类似模型，仅在MLP尺寸上有所不同，同时保持所有其他因素固定，包括层数、嵌入维度、数据集和训练配置。所得到的模型在嵌入冷凝上表现出一致的趋势，以定性（面板a）和定量（面板b）方式展示。为便于视觉比较，面板a上添加了横虚线。特征3：冷凝早期发生。嵌入冷凝现象在模型初始化时就会出现，并通过预训练逐渐缓解，而不是加剧。图4. 在模型初始化后立即观察到嵌入冷凝。我们分析了Olmo-3-1025-7B的检查点，涵盖初始化、中间预训练阶段和最终基础模型。每个检查点都标注了其训练阶段和训练标记的数量。特征4：蒸馏不是解决方案。通过从大型模型进行知识蒸馏并不能传递所需的抵抗嵌入冷凝的能力。图5. 知识蒸馏并不是嵌入冷凝的补救措施，以定性（面板a）和定量（面板b）方式展示。分散损失嵌入冷凝通过将标记嵌入向量压缩到狭窄的锥体中，降低了变换器的表现力，未充分利用表征空间。我们假设通过在训练过程中分散嵌入，小模型可以达到与大模型更相似的表征质量，从而缩小性能差距而不增加