黑箱大型语言模型的知识蒸馏

查看PDF HTML（实验性）摘要：鉴于诸如GPT-4等专有大型语言模型（LLMs）的卓越表现，最近的研究越来越关注通过从这些强大而又黑箱的教师中进行知识蒸馏（KD）来提升较小模型的能力。虽然利用这些教师的高质量输出是有利的，但它们内部状态的不可访问性往往限制了有效的知识转移。为了解决这个限制，我们提出了Proxy-KD，这是一种新颖的方法，通过使用代理模型来促进从黑箱LLMs到较小模型的知识高效转移。我们的实验表明，Proxy-KD不仅增强了从黑箱教师模型进行KD的性能，还超越了传统的白箱KD技术。这种方法为从先进的LLMs中蒸馏知识提供了一个令人信服的新途径。主题：计算与语言（cs.CL）引用为：arXiv:2401.07013 [cs.CL]（或arXiv:2401.07013v2 [cs.CL]用于此版本）https://doi.org/10.48550/arXiv.2401.07013 arXiv发布的DOI via DataCite 提交历史来自：Hongzhan Chen [查看电子邮件] [v1] 2024年1月13日 08:43:32 UTC (359 KB) [v2] 2024年11月9日 01:35:32 UTC (8,288 KB)