返回

文章详情

The Atlantic created a searchable database of the music used to train AI

大西洋创建了一个可搜索的音乐数据库,用于训练AI

The Verge2026年6月20日 18:46

数百万首音乐曲目在数据集中免费提供,即使它们不应该如此。特伦斯·奥布莱恩2026年6月20日,协调世界时下午6:46 图像来源:凯瑟·弗吉尼亚/《边缘》 特伦斯·奥布莱恩是《边缘》的周末编辑。他在科技行业工作超过18年,对合成器了解颇多。大西洋的记者亚历克斯·赖斯纳最近发现了四个用于训练AI模型的音乐数据集,并使其对公众完全可搜索。两个数据集非常庞大,分别包含1200万和900万首曲目。其他两个数据集则小一些,但每个仍然包含超过10万首歌曲,代表了的重要训练数据。赖斯纳指出,这些数据集已被下载数千次,虽然无法确切知道是谁使用了它们,但谷歌和稳定性公司均在研究论文中确认他们使用过。一些来源,如自由音乐档案数据集,允许为个人使用免费流媒体,但商业应用需要获得许可。虽然数据集在理论上在互联网上免费提供,但将其用作训练数据并不是简单地下载ZIP文件并将其输入到AI模型中。正如赖斯纳所解释的那样:我找到的三个数据集是以链接列表的形式分发的,这些链接指向YouTube或Spotify上的歌曲,AI开发者使用自动化工具下载实际音频,其中一些工具允许开发者跳过登录、广告和可能为创作者赚取金钱或订阅的机制。这些工具违反了这些平台的服务条款。出现在数据集中的一些名字包括流行歌手如Lady Gaga和Fred Again..,还有Radiohead、Aphex Twin、Wu-Tang Clan、Bruce Springsteen和实验作曲家Hainbach。您可以访问大西洋的AI观察者网站,自己搜索正在用于训练世界AI模型的歌曲、书籍和其他媒体。跟踪这个故事中的主题和作者,以在个性化主页上看到更多类似内容,并接收电子邮件更新。特伦斯·奥布莱恩《边缘》日报 一个关于最重要新闻的免费日常摘要。电子邮件(必填)

赞助内容

NordVPN Next-gen Antivirus

本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。

请我喝杯咖啡