过参数化的令人困惑的成功：中奖彩票还是逃离维度？

彩票和票据常常被用作类比，以解释过参数化神经网络的成功：“更大的网络成功是因为它们更有可能包含一个良好初始化的子网络，可以独立地学习任务，这就像购买更多票据增加赢得彩票的机会一样。” 这种解释直观但具有误导性：它暗示子网络可以与整个网络的其余部分隔离对待。遵循这种推理导致将宽网络中的学习解释为多起始优化过程，其中梯度下降只是对子网络进行并行搜索。我们认为这种观点有缺陷，因为，除了其他原因，赢得的票据可以通过扰动网络的其余部分而失败。我们提出了一种基于损失景观几何的更准确的过参数化成功的直观图：增加宽度扩展了可用于优化的维度集，使得更容易逃离糟糕的局部最小值。此外，随着宽度的增加，糟糕的最小值相对于好的最小值变得越来越少。随着该领域的成熟，重要的是要细化我们用来解释基础现象的类比，例如大网络的明显冗余，将从业者的直觉与现代理论见解相结合。