谷歌因蒂姆尼特·格布鲁的警告而解雇她的LLM警告都已成真

蒂姆尼特·格布鲁于2020年12月被谷歌解雇，原因是她拒绝撤回一份研究论文，而这篇论文中关于大型语言模型的每一个警告现在都在规模上发生了，行业花了四年的时间试图让人们忘记这一切。她的名字是蒂姆尼特·格布鲁。她是谷歌伦理AI团队的共同负责人。她与华盛顿大学的埃米莉·本德尔以及其他两位研究者共同撰写了一篇名为《随机鹦鹉的危险》的论文。该论文长达14页，提交给了一个顶级AI伦理会议。而这也是谷歌决定解雇一位在AI研究领域的最资深黑人女性的原因。谷歌公开讲述的故事是她辞职了。而她讲述的故事得到了2695名同事在公开信中确认，称她在假期时被通过电子邮件解雇，因为她拒绝撤回论文或将她的名字从论文中移除。那篇论文甚至还未发表。以下是她所写的内容，以及其中的每一个预测为何现在都成真。第一个警告是关于规模本身。本德尔和格布鲁在论文中论证，基于越来越大的互联网数据训练日益庞大的模型将产生看似流利但实际上对语言没有真正理解的系统。她们称这些系统为随机鹦鹉，因为它们会以统计自信性重复训练数据中的模式而没有任何理解。这篇论文预测，这种表面上的智能将使用户和开发者都相信这些输出是结构上可靠的。这是在2020年，GPT-3刚刚发布。该论文在人人还没有一个词描述幻觉问题之前就预测到了这一点。第二个警告是关于偏见放大。论文详细记录了互联网规模的训练数据中包含主导观点的系统性过度代表和边缘观点的代表不足。模型不仅会吸收这种偏见。它们还会放大这种偏见，因为优化过程奖励自信的输出，而语言模式的自信与训练集合中的频率相关。预测是，基于这些模型构建的招聘工具会对女性歧视。医疗分流工具会在黑人患者身上表现不佳。贷款批准系统在呈现其决定为中立算法判断的同时，会进一步加剧不平等。这些事情现在都已在实际部署中被记录下来。亚马逊的招聘算法惩罚任何上下文中包含“女性”一词的简历。主要美国医院使用的医疗风险评分算法被发现系统性地低估了黑人患者的医疗需求。苹果卡的信用算法为妻子提供的信用额度是丈夫相同财务状况下的10倍最低。第三个警告是关于环境成本。论文计算出，训练一个大型语言模型所产生的排放相当于5辆汽车的生命期总产出。预测是，追求规模的竞赛将创建一个环境足迹，最终将与整个行业相当。到2024年，谷歌的排放比2019年增加了48%，而该公司明确将责任归咎于AI基础设施。微软的排放量增加了29%，原因相同。这两家公司现在已经悄悄放弃了他们在格布鲁被解雇那年公开庆祝的气候承诺。第四个警告是关于文档。论文论证组装的训练数据集过于庞大，以至于没有人能够真正进行审计。谷歌、OpenAI、Meta或任何其他实验室的人都无法自信地告诉你他们模型训练数据中包含了什么。这不是一个稍后可解决的临时问题。这是这种方法的一个永久特征。在2023年，研究人员发现，用于训练稳定扩散等主要图像模型的LAION-5B数据集中，包含了数千张儿童性虐待材料的图像。那些在该数据集上进行训练的公司对此毫无头绪。这篇论文在三年前预测了这一类别的失败。第五个警告是谷歌最关心的。本德尔和格布鲁认为，这些系统的部署将会将语言和文化权力集中在少数几家能够负担得起训练的公司的手中。互联网将成为一个地方，主导的声音将是主导声音的统计平均值，表现为一个中立的助手。训练数据中代表不足的语言将随着由这些系统生成和反馈到下次训练运行的更多网络内容而逐渐恶化。现在这一切都在实时发生。一项2024年的研究发现，57%的新英语网络内容是由AI生成或AI辅助的。研究低资源语言的研究人员记录了翻译质量的实际下降，因为反馈到训练中的合成内容在这些语言中本身就较差。谷歌因此解雇她的论文预测了这一切。