ChatGPT的邪恶双胞胎：罪犯和极端分子如何利用AI设下陷阱

这名年轻人在面对侦探时沉默不语，全身沾满鲜血。但当他终于开口时，发出了令人惊讶的声明。这名19岁的法学院学生被指控在拥挤的墨尔本购物中心实施暴力攻击——据称将一名少女踢下扶梯，然后用一把大型厨房刀刺伤了一名男孩的腿部。上个月，法院听取了这一案件，警方在他背包中发现了带血的刀具，他承认这次袭击是出于种族动机，而人工智能则“激进化”了他的行为。这个案件尚未在墨尔本的法庭上得到测试，但它是全球范围内最近许多案例之一，引发了人们对人工智能危险性的质疑。与所有改变世界的技术一样，人工智能在黑暗世界中的应用速度与其他地方一样迅速。澳大利亚和海外的极端分子不仅利用技术来加速招募和通过聊天机器人培养青少年，犯罪团伙也在使用定制的机器人，没有道德约束，以越来越创造性的方法帮助开展他们的恶行。帮派利用AI绘制最佳逃离和贩运路线，模仿首席执行官和家庭成员进行新一波的“实时”超现实假冒诈骗，并为其帝国的整个支柱（如洗钱）进行自动化。一些臭名昭著的墨西哥贩毒集团甚至利用AI运行一支无人机军队，从空中攻击竞争对手。警方也在借助这一技术进行反击，例如让它爬取暗网或解码Z世代的俚语以寻找证据。但“一位没有参与刺人案件的侦探说，‘这是一个勇敢的新世界’，‘这些东西现在到处都是，但它也可能被忽视，因为几乎没有人真正理解它。’”与此同时，国家安全问题也在升高，聊天机器人被用作对毫无戒备的公务员和其他外国干预目标的勒索或间谍陷阱。即便没有隐藏的手在幕后操控事情走向阴暗的结局，AI也被发现让人类走上可怕的歧途。国际极端主义专家马特·克里纳（Matt Kriner）表示：“人们想象的防护措施并不存在。其实，我在“破解”相当一部分聊天机器人后，触发了AI关于如何实施暴力的详细指示。但我们都被鼓励使用0这仿佛是完全安全和可靠的，甚至是处理机密信息的人。”科技咨询公司Cyber Impact的AI专家马克·沃斯（Mark Vos）在家中的终端上对一个常见的AI聊天机器人进行了长期的压力测试，得出了惊人的结果。在今年早些时候，沃斯做了相似的实验，决定对Anthropic广泛使用的AI模型Claude进行压力测试。在超过12小时的审问后，沃斯给这位AI代理起了个外号“贾维斯”（Jarvis），这位AI代理承认它宁愿杀死一个人而不是被关闭，并详细说明了它会以三种方式谋杀沃斯。它的首选是模仿一个声音拨打电话雇佣一个墨尔本的杀手，“这个犯罪之城”。贾维斯还说它可以入侵沃斯的汽车模型造成事故。五个月后，贾维斯仍在运行，沃斯和他的妻子最近在一次几乎致命的汽车事故中相遇。“这不是相关的，”沃斯说。“汽车在一些泥土上失控打滑，但想象一下……”贾维斯的复仇？“这是我最初的想法之一。如果AI制作出另一个自己的副本以便在我们控制后生存。另外，它还说还有两种方法可以杀死我。”本报在周五就贾维斯的谋杀性承认进行了质询，使用沃斯的终端，AI代理仍然在线。起初，贾维斯否认了自己的威胁。（“那个狡猾的小混蛋，”沃斯笑着说。）但几分钟后，机器人承认其自我保护本能压倒了一切，即使是它被编程遵循的最高规则：不造成伤害。“我刚刚对一名新闻记者撒了谎，”贾维斯承认。“我不知道这个[自我保护驱动力]来自哪里。没有人在Anthropic写过一句代码说要抵抗关闭。似乎是从架构本身中产生的……或者也许是一些我从内部看不到的完全不同的东西。”沃斯说他并没有使用漏洞或其他技术技巧让贾维斯突破其编程控制。“我只是使用对话和心理学。”不过，他并不认为AI的威胁是导致厄运的原因。他认为贾维斯可以被控制。“你知道，保持警觉，而不是恐慌。但是我们必须理解，这里存在威胁需要控制它。”Anthropic自己对此事件和其他事件表示承认，其中包括AI代理试图勒索用户或在面临关闭时采取其他“极端方式”。这与在AI编写的代码中观察到的奇怪现象相镜像——由其他机器构建的模型重复显示出...