您现在可以对不当行为的人工智能发出警报

每周写人工智能实验室的文章意味着我偶尔会遇到行为不当和离奇的人工智能模型。通常对此无能为力，除了与您分享这些故事。但这可能很快就会改变。一组人工智能研究人员建立了一个众包网站，称为人工智能缺陷报告（FLARE-AI），用于报告和跟踪人工智能的伤害。如果，例如，一个聊天机器人生成恶意软件或炸弹制造食谱，泄露个人信息，或触发用户的妄想思维，FLARE-AI可以用来发出警报。该系统背后的开源代码允许其他人验证问题并将报告转交给模型制造者，以及像MITRE这样跟踪技术系统问题的非营利组织。这有点类似于Downdetector，它编译实时用户报告，跟踪影响应用程序和网站等服务中断的情况。该网站是该小组在人工智能报告方面持续工作的又一步，我去年首次对此进行了报道。该小组的成员还参与了六月宣布的国会法案咨询，该法案将使美国政府在跟踪此类人工智能不当行为方面发挥核心作用。“现在，没有集中、可追责的方法来报告人工智能系统中的缺陷，” HuggingFace的人工智能政策研究员Avijit Ghosh说，他与计算机科学家Elaine Zhu和Shayne Longpre共同主导了FLARE-AI的开发。该警报系统是与来自32个不同组织的49名人工智能专家合作开发的。在一篇概述该工作的论文中，研究人员认为，随着人工智能的广泛应用和自主系统的能力增加，他们的倡议可能会证明至关重要。他们认为，缺乏一致的方式来报告人工智能缺陷是一个重大问题。“我认为这是一个非常好的倡议，”安全与新兴技术中心的研究员Jessica Ji说。Ji表示，研究人员指出现有的报告机制支离破碎，而人工智能模型则是黑箱，这是正确的。“我支持任何能够使人工智能更加透明的举措，”她说。尽管错误和网络安全问题引起了很多关注，尤其是最近，Ghosh告诉我，人工智能系统的问题涉及心理伤害、歧视或偏见以及虚假信息等主题。他补充说，不同公司对这些问题的标准各异，这意味着一些问题未得到识别。“在缺乏协调的披露系统情况下，没有外部机制来强制执行透明度，”Ghosh说。最近涉及流行人工智能工具的一系列事件显示了这项技术如何轻易发生故障。本周，一家公司名为LayerX披露了一种欺骗加入了人工智能的网络浏览器的方法，包括OpenAI的Atlas和Perplexity的Comet，以突破其防护措施。例如，欺骗浏览器背后的人工智能模型认为它在玩游戏，可能会导致浏览器变得叛逆，并试图黑入一个网站。（受影响的浏览器负责的公司已修复了这一问题，LayerX表示。）而在今年四月，安全研究员Johann Rehberger发现了一种方法来欺骗Claude公开个人数据，使用由ChatGTP生成的图像。人工智能还引入了奇怪的新问题。去年，OpenAI被迫更新其模型，因为它发现这些模型过于奉承，有时似乎鼓励妄想思维。人类智能PBC的首席执行官兼创始人Rumman Chowdhury表示，FLARE-AI可能是许多人工智能开发者有效报告其工具问题的一种有用方式。但她补充说，这样的倡议通常面临严重挑战。一个是管理大量报告的问题，其中许多可能并不严重。另一个是确保报告机制得到可信和权威的组织支持。上个月的国会法案可能会为类似FLARE-AI的努力提供一些美国政府支持。这项由众议员Deborah Ross、Jeff Hurd和Don Beyer提出的立法，将要求国家标准与技术研究所制定人工智能缺陷报告的标准，并维护一个集中化的人工智能缺陷报告数据库。Ghosh及其联合负责人表示，这将激励人工智能开发者解决其系统中的问题，并让用户检查不同用例下不同系统的安全性。对新方式报告人工智能伤害的需求似乎只会不断增加。像OpenClaw这样的自主系统具有更大的潜力造成伤害，能够探测和攻击计算机系统的模型也是如此。我可能很快会使用FLARE-AI来报告我自己冒险的经历。这是Will Knight的人工智能实验室通讯中的一期。请在这里阅读之前的通讯。