谷歌DeepMind对数百万智能体开始互动后的结果感到担忧

为了解决这个问题，谷歌DeepMind——上个月在谷歌I/O大会上将基于智能体的工具作为重点——与其他几个组织合作，宣布设立1000万美元的资金池，供研究人员研究多智能体系统的行为，并提出防止不安全场景的方法。参与的还有由Eric和Wendy Schmidt创立的慈善基金会Schmidt Sciences；英国政府的月球计划机构ARIA；总部位于英国的非营利研究机构Cooperative AI foundation；以及谷歌的慈善机构Google.org。我问Shah和Schmidt Sciences的可信AI科学项目负责人James Fox，他们希望用这1000万美元取得什么成果。这不是一个小数目，但与谷歌DeepMind自己研究团队的预算相比显得微不足道。Shah表示，目标是启动科技公司外的研究：“学术界的优势在于它可以很远地展望未来，做一些业界实验室未必关注的工作。”他补充道：“主要问题在于，目前并没有一个真正的多智能体安全研究领域，我们希望能有这样一个领域。”担忧在于，随着越来越多的AI智能体被部署并开始协作，我们可能会达到一个临界点，想象中的场景变为现实。“我们在全人类身上也能看到这一点，”Shah说。“我们的机构可以完成任何个体人类无法做到的事情。”Shah认为，在智能体数量足以引发潜在风险之前，我们还有几个月的时间。他希望在那个时刻到来之前做好准备。风险业务我们到底在谈论什么风险呢？Shah和Fox考虑的可能性主要归结为互联网当前已经发生的坏事的超级版本：诈骗、提示注入（即向AI智能体提供恶意指令，使其变成自主行动的恶意软件）和其他形式的网络攻击。我们查看人类现在的行为，并询问智能体的相应版本会是什么，Shah说。（我问Shah，他们是否考虑过那些更阴暗的最坏情况，比如广泛的经济崩溃。“如果我们谈论的是今年年底，那肯定不行，”他说。那距离现在只有6个月！他笑了。“好吧，再往后吧。”）Shah和Fox都认为，理解大量多智能体系统相互作用时可能发生的事情的唯一方法是进行现实的模拟。他们希望研究人员将AI智能体放入沙箱环境中，研究它们的行为。你不能仅通过研究单个智能体，甚至是小组智能体的孤立情况来预测将会发生什么。Fox说，不能假设由大型语言模型支持的AI智能体总是会理性行事。而复杂性来自于同时进行的大量互动。一些研究人员，包括谷歌DeepMind的一支团队，认为人工通用智能（如果可能的话）可能不是来自单个超级智能模型，而是来自一种智能体群体意识，其整体能力大于各部分之和。缺乏信任谷歌DeepMind并不是唯一警告其正在构建的技术风险的顶尖AI公司。几周前，Anthropic发布了基于被称为零信任的网络安全方法的AI智能体部署指南，该方法以计算机系统脆弱、智能体是攻击者以及会发生安全漏洞的假设为起点。位于特拉维夫的网络安全公司Akeyless的联合创始人和CTO Refael Angel同意，理解智能体系统带来的新风险至关重要。过去的每一个安全方法都假设相关机器是人类编写的软件，进行固定的操作和路径，Angel说：“智能体打破了所有这些假设：它会推理，临时应变，甚至可能被藏在它被要求阅读的文档中的一句话劫持。”Angel欢迎这项新的资金倡议。“没有任何单一实验室应该制定出所有人必须信任的安全标准，”他说。但他警告说，安全研究人员可能会忽视已经存在的无聊问题，而将注意力集中在更为复杂的假设问题上。然而，Fox指出，几年前还是假设的风险现在已经变得非常真实：“未来来得比预期的更快。”