类人神经网络的弹射
这是一个设想性提议,旨在通过对超参数化神经网络进行高学习率/正则化训练,以实现类人表现的人工神经网络,进而触发弹射/理解。将超参数化视为实现真正泛化的途径,将解决许多关于人工智能与自然智能之间的未解之谜。关于深度学习和人类智能,有很多谜团,但我们可以这样描述最大的异常:为什么人工神经网络在愚蠢的方式上显得聪明,而生物大脑在聪明的方式上却显得愚蠢?我提议对深度学习的扩展范式进行重大改变:人脑和神经网络(特别是大语言模型)之间的架构差异可能源于偏差-方差权衡,其中大语言模型最小化方差而人脑最小化偏差。人脑通过深度双重下降式的超参数化来做到这一点,并采用在小规模多样化高度过滤的数据集上,对极度超参数化模型进行极高学习率训练的扩展策略。这种方法将高效地、计算高效地在模型损失景观中旅行(或弹射)到一个类人般的高度泛化的盆地,同时在此之前的表现不佳,无法记忆太多数据。如果这一点属实,将解释许多人类和神经网络表现良好/不佳的奇特风格化事实。这种“弹射的大语言模型”将比现有的神经网络有更好的泛化能力,免受对抗性攻击,具备更好的经济性和更强的克隆抵抗力,可能启用极其高效的多层感知器架构,并通过提供真正的泛化,为人工智能安全提供坚实的基础,形成有用的、符合安全原因的神经网络。这可以通过在相对较少的步骤中对多万亿参数的模型进行高周期学习率调度的训练进行可行性测试,并在如算术和小图像分类等任务上基准测试对抗性和困难示例。因为深度学习一直在扩大规模,突破基准,并开始看起来真的将是最终的人工智能范式,因此在某种意义上,这在很大程度上与人类的“智能”相同,我们可以将“智能”视为已经解决的问题:智能是足够的计算能力应用于搜索程序(如图灵机或电路),以预测或优化最优解决方案是相对较长的程序(这是与“守护天使:大语言模型个性化以提升生产力和安全性”一文的伴随作品)。广义的智能,一个以扩展为中心的观点可能可以总结为:主合成异常,但这个范式,即使现在看起来是如此正确,仍然不能解释所有事情。我们仍然存在许多特定问题,而这个范式又过于一般,无法解释。尽管当前的神经网络,特别是大语言模型,绝对是迄今为止最类人化的人工智能软件,具有类人的优缺点,但机器和生物智能中仍存在若干异常尚无良好答案。我们在这里有许多难题,但它们似乎都以某种方式相互关联。人工样本低效性为何神经网络需要类似于Chinchilla式的数据和计算扩展,而人类似乎能从少数量级的数据中学习,并且在(考虑到各种人脑等效物的估算)越来越可信的情况下,他们可能从更少的总计算中学习?为什么,正如许多连接主义先驱如阿兰·图灵所期望的那样,我们不以儿童的方式训练人工智能,采用一套课程和明确的发展阶段?有许多答案被提出,但没有一个令人满意。(那我们该如何看待像罗森菲尔德2021年的“Nyquist学习者”这样的理论结果?)多模态:尽管多模态是有用的,但它未能产生任何主要的扩展法则指数变化;单模态模型的表现令人震惊地好,而语言模型最终显然编码了大量的视觉知识,并且可以很容易地与视觉模型结合(例如Flamingo,Tsimpoukelli等2021)。人类的感官输入实际上是庞大的:另一个常见的解释是否认人类从更少的数据中学习,并根据原始感官带宽进行论证:如果视听和触觉的速度是某个比特每秒,而你在成年人的一生中积累,这可能看起来与我们对数万亿令牌进行训练的大语言模型相当。这个论点无说服力,因为原始的感官速率并无意义:输入在大部分情况下是极度冗余和可预测的。(想象一下坐在房间里盯着电脑屏幕。)试图量化图像、视频或声音的信息内容的尝试,通常表明它们归结为几百或几千个令牌,而这些模态可以被小模型(例如iGPT/DALL·E 1)轻松学习。特别引人注目的是文本到图像生成模型中的不对称性,文本编码器(通常是事后考虑)往往远大于图像生成器本身。
本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。
☕请我喝杯咖啡