人工智能正在放大音乐行业已经建立的偏见（嘉宾专栏）

非洲、中东和南亚大约占全球人口的一半，同时也是数百种不同音乐传统的发源地。但在目前最常用的音乐人工智能模型训练数据集中，非洲音乐只占0.3%，中东音乐占0.4%，南亚音乐占0.9%——而西方音乐流派占94%。这些数据来源于阿布扎比穆罕默德·本·扎耶德人工智能大学的研究人员，他们调查了当今生成音乐工具背后的训练数据集，并在2025年美洲国家计算语言学协会(NAACAL)年会上展示了这些发现。当这些模型试图生成印地音乐传统的拉格（raga）时，它们默认使用了古琴（sitar）演奏西方音调结构，产生了听起来像西方音乐但在表面上加了印度乐器的作品。相同的研究测试了土耳其的马卡姆（Makam），这是一种基于在西方钢琴上并不存在的音程构建的旋律系统。同样，模型将这些音程简化成标准的西方音高。当研究人员向模型提供额外的印度古典音乐和土耳其马卡姆录音以纠正偏见时，模型的创作输出实际上变得更糟。西方训练数据过于主导，无法被覆盖。这项研究确认了问题比代表性不足更为严重，几十年来嵌入在音乐数据中的偏见现在正被构建进基于这些数据训练的人工智能系统中。而正是这些系统将塑造未来多年人们所聆听、付费和推广的音乐。相关的音乐行业的数据集在几十年来是谁被签约、哪些市场被认为值得追踪和哪些流派获得投资的情况下形成。行业基础设施围绕特定的商业领域构建，并且被认为代表了整个行业。很长一段时间，这些差距静静地存在于后台数据库中，影响缓慢显现。现在，这些差距存在于训练数据中，基于这些数据构建的系统将在可预见的将来运作。偏见扩展到性别。在2025年，女性在《公告牌》热100中的词曲创作人中占14.5%，而制作人仅占4.4%，根据南加州大学安nenberg包容倡议的数据，这些数据已经跟踪超过十年。自2012年以来，这些数字几乎没有改变。算法从一个不反映人们希望听到的基础上学习，而是反映了已经流行、得到推广和大规模编入播放列表的内容。这些输出又直接回馈到循环中。被添加到Spotify今日热门歌曲中的一首歌会产生数百万次播放，这告诉算法它很受欢迎，从而生成更多推荐，进而产生更多播放。对于独立艺术家、新兴场景和非西方音乐而言，循环则反向运作：数据更少，能见度更低，推荐更少。2024年，由MediaFutures和挪威卑尔根大学发布的一项调查确认，受欢迎度偏见是推荐系统中最持久和最有文献记录的算法不公正形式之一。这一切并非始于人工智能。元数据问题已经积累多年，并聚集在可预见的领域：围绕独立艺术家、非西方目录以及任何在主要唱片厂牌发行之外发布的音乐。2026年初，电子音乐协会（AFEM）对22个音乐科技公司进行了调查。半数公司将数据库中存在的元数据冲突视为其最大的结构性挑战，41%指出缺乏通用艺术家和歌曲标识符。行业有一种根深蒂固的习惯，即先发行音乐，后来再整理数据。一首曲目从艺术家流转到发行商，再到数字服务平台（DSP）和集收社会，在每一次交接中，都可能出错。损坏的元数据意味着下游的一切都出错：错误的推荐、错误的版税、错误的训练数据。全球作品数据库在2014年尝试修复此问题，但失败了，因为表演权组织无法就治理达成一致。机构保护赋予他们权力的事物，这种紧张关系并没有消失。相关的是，不平等的速度发生了变化。Deezer表示，它现在每天接收到大约75,000个完全由人工智能生成的曲目。截至2026年4月，这占平台所有新上传内容的44%（作为参考，2025年1月，这项流媒体服务声称其只有10%；到11月，数据跃升至34%）。Deezer和Ipsos在2025年底的联合研究发现，97%的听众无法分辨曲目是人工智能生成还是人类创作。现在，过滤音乐的不再是质量，而是单纯的数量。Spotify报告称，在截至2025年9月的12个月内删除了超过7500万条垃圾曲目，而Deezer则表示，85%的人工智能生成曲目的播放都是欺诈的。这些平台正在进行紧急处理。当上传量在不到一年的时间里翻倍时，推荐系统