为什么人工智能模型在在线仇恨言论检测中挣扎？

曾经面对面的仇恨言论现在通过匿名在线账户在屏幕后传播得更远更快。随着联合国在6月18日庆祝国际反仇恨言论日，联合国秘书长安东尼奥·古特雷斯警告社交平台正在加剧这一威胁。随着人工智能（AI）越来越多地被用于检测和删除在线仇恨言论，半岛电视台探讨了这些系统在与人类判断相比时的不足之处。仇恨言论如何定义？根据联合国的定义，仇恨言论涵盖任何歧视或煽动对个人或群体暴力的沟通方式——无论是口头、书面还是行为上的。联合国指出，仇恨言论以个人的实际或感知身份、种族、民族、宗教、性别、性取向或残疾为目标。而且，它不限于言语，联合国还指出，它还可以表现为图像、漫画、手势甚至物品。网上有多少人遇到仇恨言论？根据2023年由民调公司益普索和联合国教育、科学及文化组织（UNESCO）共同进行的对16个国家8,000人的调查，超过三分之二的互联网用户在网上遇到过仇恨言论。调查还发现，33%的人认为LGBTQI人群经历的仇恨言论案件最多，其次是民族和种族少数群体（28%）和女性（18%）。Meta（拥有Facebook的公司）自2023年以来删除的仇恨帖子减少。在2025年第四季度，该公司从Instagram和Facebook删除了130万条帖子，而在2024年第四季度则分别删除了740万条和580万条。这是在公司减少主动检测仇恨言论，更多依赖用户举报时发生的。另一方面，TikTok表示在2025年第四季度之前，删除了96.3%所有仇恨言论和内容。AI模型对仇恨言论的检测方式不同。为了检测和对抗在线仇恨言论的传播，社交媒体公司越来越多地求助于AI，使用由大型语言模型（LLMs）驱动的内容审核系统，这些模型承诺自动过滤大量信息。一般来说，这些系统使用标记的数据集和预训练语言模型来检测攻击性语言。然后，它们应用规则或评分阈值来决定内容是否仇恨或违反公司政策。宾夕法尼亚大学的2025年研究发现，这些模型在识别和分类仇恨言论时差异很大，系统和人口群体之间存在显著不一致，提出了对偏见和不平等待遇的担忧。该研究评估了七个AI审核系统——包括OpenAI、Anthropic、DeepSeek、Mistral和谷歌的模型——发现它们在识别和评分仇恨言论方面存在重大差异。该图表显示了不同AI审核系统在0到1的尺度上对针对同一群体的仇恨言论的严重程度评分。更高的值表示模型认为内容更加仇恨。Mistral审核端点通常聚集在接近1的位置，意味着它对许多示例标记为高度仇恨，而不考虑目标群体。OpenAI审核端点在许多类别中倾向于生成更低的分数，有时不到其他模型评分的一半。正如研究作者所说：“如果两个系统对同一内容产生不同的结果——在一个案例中标记为仇恨言论，而在另一个案例中则不——这削弱了审核过程的合法性。”AI仇恨言论检测的局限性。虽然AI系统能够检测明确的仇恨言论——例如，对特定群体使用亵渎语和侮辱性语言——但更微妙的例子却被大型语言模型遗漏。“一个具有挑战性的例子是暗示仇恨言论，因为它通常不会被检测为此，因为它不包含侮辱性语言的提及，”伦敦女王玛丽大学副教授、该校社会数据科学实验室的联合负责人阿尔凯兹·祖比亚加告诉半岛电视台。“这可能是一个积极赞美的信息，比如‘我想看看如果……世界会有多美好’，接着是对某个群体的贬损信息。如果AI系统关注的是信息的积极一面，它们可能难以看到这些信息中的仇恨。”祖比亚加补充说，情况的反面也是如此，似乎冒犯的词语，如今被更加温柔的目的所使用，会被提取为仇恨言论。“这就是重新定义语言的情况，关键词在历史上被认为是侮辱性的词语，被最初用于贬损的群体拥抱并重新使用，而这些侮辱性词语则在边缘化社区成员之间使用，”他说。“虽然这些案例不应该被解读为仇恨言论，但AI系统在检测和评估这些情境时面临重大挑战。