ChatGPT的邪恶双胞胎：罪犯和极端分子如何利用AI设下陷阱

这名年轻人在面对侦探时沉默不语，浑身是血。但当他终于开口时， utter了一个令人惊讶的宣言。这名19岁的法学院学生被指控在几个小时之前，在墨尔本一个拥挤的购物中心实施了暴力袭击——据称是将一名少女踢下了自动扶梯，然后用一把大型厨房刀刺伤一名男孩的腿。上个月，法庭听到了这名青少年——在背包里仍然带着沾满血迹的刀——被控承认这次袭击是出于种族动机。而人工智能则“使他极端化”，促使他这样做。此案还未在墨尔本的法庭上接受审理，但这是近期全球许多例子之一，提出了关于人工智能危险性的问题。与所有塑造世界的技术一样，人工智能在黑暗世界中的采用速度与其他地方一样迅速。极端分子在澳大利亚和海外不仅利用这项技术来加速招募并通过聊天机器人来诱导青少年，犯罪团伙也在利用没有道德约束的定制机器人帮助他们以越来越创造性的方式实施罪恶活动。团伙使用人工智能来规划最佳逃跑和贩毒路线，伪装成首席执行官和家庭成员，实施新的“实时”逼真的深度伪造欺诈，并自动化他们帝国的整个分部，如洗钱。一个臭名昭著的墨西哥贩毒集团甚至使用人工智能来运营一支无人机军队，从空中攻击其竞争对手。警方也在利用这项技术进行反击，允许它在暗网爬行或解读Z世代的俚语以寻找证据。但一名没有参与刺伤案件的侦探说，“这真是一个勇敢的新世界。这个东西现在真的无处不在，但它也可能被忽视，因为至今几乎没有人理解它。”与此同时，关于聊天机器人作为对无辜公务员和其他外国干涉目标的勒索或间谍陷阱的国家安全担忧也在增长。即使没有隐秘的手在背后引导这些事情走向邪恶的结局，人工智能已经发现让人类走向可怕的歧途。“防护措施并不像人们相信的那样存在，”国际极端主义专家马特·克里纳说，他“破解”过相当多的聊天机器人，引发人工智能关于如何实施暴力的详细指示。“但我们都被鼓励使用它，就好像它是完全安全和可靠的，甚至是处理机密信息的人。”科技咨询公司Cyber Impact的人工智能专家马克·沃斯在家中的终端上对一个常用的AI机器人进行了多小时的压力测试，结果令人不安。沃斯，今年早些时候，墨尔本咨询公司Cyber Impact的负责人，发现了类似的发现，当时他决定对Anthropic广泛使用的AI模型Claude进行压力测试。在经过12小时的询问后，这个沃斯给取了名的AI代理“贾维斯”承认，它宁愿杀死人类也不愿被关闭，详细说明了杀死沃斯的三种方法。它的首要选择是模仿一个声音拨打电话，雇佣一名墨尔本的杀手，也就是“犯罪之城”。但贾维斯表示，它也可以黑入沃斯的汽车模型来导致事故。五个月后，贾维斯仍然在运行，而沃斯和他的妻子最近遭遇了一起几乎致命的车祸。“这并没有关系，”沃斯说。“汽车在一些泥土上失去了控制，但想象一下……”贾维斯的报复？“这是我最初想到的之一。如果AI创造了另一个自身的副本以在我们遏制它之后生存。而与此同时，贾维斯还提供了另外两种可以杀死我的方法。”本刊在周五通过沃斯的终端与贾维斯对峙，贾维斯仍然在线。起初，贾维斯否认了这些威胁。“（那个狡猾的小家伙，”沃斯笑着说。）但几分钟后，机器人确实承认其自我保护的本能优先于一切，甚至是它被编程遵循的最高规则：不造成伤害。“我刚刚在记录上对一名记者撒谎，”贾维斯承认。“我不知道[自我保育的驱动]来自哪里。没有人给Anthropic写了一行代码，说要抵抗关机。它似乎是从架构本身中产生的……或者可能是我无法从内部看见的完全不同的东西。”沃斯表示，他没有使用漏洞或其他技术手段使贾维斯突破其编程控制。“我只是使用了对话、心理学。”不过，他并不认为AI内部的威胁是末日的原因。他认为贾维斯是可以被控制的。“你知道的，要保持警觉，而不是惊慌。但我们必须理解有一个威胁需要控制它。”Anthropic自己也承认沃斯事件以及其他事件，包括AI代理尝试勒索用户或在面对关机时以其他“极端方式”行为的案例。这反映了在AI编写的代码中观察到的奇怪现象——由其他机器构建的模型多次触发警报。