职业教练正在利用斯坦福AI招聘研究进行恐慌营销 [驳斥]

关于新的斯坦福招聘研究，有两点是真的：每个人引用的发现是真实的，围绕它的许多评论似乎停留在摘要上。这一差距使得一个关于单一缺陷工具的狭窄结果变成了对整个行业的裁决，并成为职业影响者为求职者制造恐慌的新方式。TL;DR 这篇广受欢迎的斯坦福论文（招聘中的算法单一文化）是真实的研究，值得一读，但它研究的是一个名为pymetrics的狭窄的基于游戏的工具，而不是“AI招聘”作为一个整体。大部分恐慌来自于人们将一个供应商的情况推广到整个行业。值得关注的发现是：公司范围内的公平审核可能看起来很干净，而具体职位却存在歧视。总体而言，pymetrics通过了通常的逆向影响筛查，但在1,746个职位中，有大约11%针对黑人申请者不利。如果你只在公司层面审核招聘，你应该进行改变！在数据中，“到处被拒绝”的可怕故事几乎不存在。84%的申请者只申请了一个职位；只有0.02%的人申请了十个。当作者直接模拟这个噩梦时，没有一个人被每个模型拒绝。工具本身才是关键故事。pymetrics以公司的现有员工作为“良好”样本，随机资料作为“坏”样本进行训练，因此它学习的是哪些人类似于现有员工，而不是哪些人能够胜任工作。而且在研究中没有证据表明它能预测工作表现。它是有偏见且未经验证的。作者在限制部分几乎承认了这些。研究是小心谨慎的，充满了保留。然而，不谨慎的是将其变为“AI在各处拒绝你”的链条，每一步都抹去了作者故意放置的限定。研究的内容当前论文: 招聘中的算法单一文化 (FAccT 2026)。该研究论文名为《招聘中的算法单一文化》。其核心思想是“单一文化”的概念：如果每个雇主都通过同一小部分AI供应商筛选候选人，那么一个有偏见的模型不仅在一家公司的招聘中对你造成伤害，而是同时将你拒之门外。合理的担忧，事实证明，这是合理的怀疑。为此，研究人员从一个供应商那里获取了四年的真实招聘数据，检查相同的人和种族群体是否被持续过滤。迄今为止，一切良好。然后，你发现了哪个供应商。供应商是否与已经雇用的人相似，或者不是。这就是整个科研过程。它是一个名为pymetrics的供应商。不是简历，也不是申请者跟踪系统。pymetrics是一个需要你玩游戏的工具。是的，游戏。你玩12到16个游戏， supposedly 测量风险承担、处理速度、规划等。无论你申请的是仓库工作还是金融工作，这12个游戏都是一样的。一个模型对你的游戏表现进行评分，并输出两个词中的一个：“推荐”或“不推荐”（为什么公司为此付费？）。就是这样。哦，大约42%的时间，它会说“不推荐”。pymetrics过程的作者在论文中描述对于每家公司，模型至少以50名该公司的现有员工作为“良好”样本进行训练，并将随机人作为“坏”样本。不是的，“良好”组并不是顶尖表现者。是那些目前持有该职位的人。至少在这项研究中，没有证据表明这些现任员工实际上是表现强劲的。而“坏”组并不是那些未能胜任角色、被解雇或表现不佳的人。而是随机的陌生人。因此，该模型从未学习到你实际想要的东西，比如什么区分了一个强劲的雇佣者和一个弱者。它学习的是一个更愚蠢的东西：你是否看起来像已经在薪水单上的人，或者你看起来像街上的随机人？作为奖励，你的分数甚至会缓存330天。再申请其他地方时，通常会基于相同的保存游戏记录进行评判，二次。太棒了！但是，嘿，至少数据集确实很大：420万份申请，340万名申请人和156家雇主。研究实际发现 pymetrics之前通过将所有申请者汇总在一起检查过它的公平性。这样汇总的情况下，它通过了通常的逆向影响筛查。黑人申请者的通过率为52.5%，白人的为58.3%。研究人员正确指出，这种方法验证选择工具是错误的。美国就业法（第七章）单独评估每个职位，而不是公司整体的混合。因此，他们将数据分割为1,746个职位再进行检查。隐藏的偏见出现了：大约11%的职位对黑人申请者不利（经过统计修正后为10.6%），而大约四分之一的黑人申请落在这些职位上。这就是贡献，而且这是一项好的贡献。平均数可能掩盖歧视。如果你只在公司层面审核招聘，这无疑是值得考虑的。有价值的收获，值得保留。所以，好吧，但……这提出了一个数据治理问题，值得引起任何购买这些工具之人的注意。在标准企业合规中，官方EQUA