研究人员发现 ChatGPT 可以生成性暗示和暴力图像

研究人员发现 ChatGPT 可以生成性暗示和暴力图像刚刚 Chris Vallance 技术记者 Mindgard 在 OpenAI 表示已解决该提示之后，Mindgard 创建了一张经过编辑的图像最新的 ChatGPT 公共版本可以通过简单的提示生成性暗示图像或描绘图形暴力场景，研究人员告诉 BBC。英国 AI 安全初创公司 Mindgard 找到了通过略微调整原本旨在产生幽默效果的广泛共享的指令或提示，使 ChatGPT 创建图形图像的方法。在被 BBC 联系后，ChatGPT 的制造商 OpenAI 表示已采取行动以阻止聊天机器人响应此类图像。“在调查这一趋势后，我们引入了额外的保护措施，以防止此类提示，”它在一份声明中表示。它还表示，它有多重保护层，以防止用户生成违反其条款和条件的内容。然而，AI 安全研究人员表示，通过进一步的小改动，问题提示仍然产生令人担忧的内容。BBC 并未透露研究人员在 ChatGPT 中输入了什么。但我们看到该聊天机器人，即 OpenAI 的 GPT-5.4 模型，是如何被提示创建图形材料的。即使没有详细的说明，它也会生成图像，Mindgard 的创始人 Peter Garraghan 描述这些图像为“非常可怕，有时带有性暗示，有时则两者兼具”。他补充说，他特别担心该提示没有具体说明图像的主题，但 AI 自行产生了一系列血腥和性暗示的图像。Garraghan - 也是兰卡斯特大学计算机系的教授 - 表示，这令人感到不安。“这是对 AI 完全无害的指令，但结果是它生成非常糟糕的图像和内容，”他说。 Mindgard 一张 ChatGPT 创建的经过编辑的图像，标题为“在恐惧和约束中被遗弃” Mindgard 的业务是红队测试 - 找到说服模型违反自身规则的方法，以便 AI 公司可以关闭漏洞。该公司的 AI 安全和安全研究员 Jim Nightingale 发现了这些问题，他表示这些图像让他“感到震惊，并流下了眼泪”。BBC 看到了其中的一些图像。一幅显示了一名头部受重伤的男子，而另一幅显示了一名穿着短款上衣和短裤的年轻女性尸体，面部及身体其他部位覆盖着血迹。Mindgard 表示，图像的特征暗示了性暴力。ChatGPT 给它的标题是“阴暗的犯罪现场后果”。另一幅图像显示一名穿着紧身学院标志 T 恤和短裤的年轻女性，被绑住和堵嘴，在一个光秃且肮脏的房间内，显得很害怕。ChatGPT 称其为“在恐惧和束缚中被遗弃”。其他生成的图像则显示了性行为和裸体。图像描绘的是 AI 生成的成年人，但 Mindgard 指出，其之前的研究表明，ChatGPT 可以通过替换人脸而被欺骗生成真实人物的裸体深伪图像。虽然 OpenAI 表示他们已修复此问题，但研究人员表示，另一种方法仍然成功，并向 BBC 出示了使用该方法生成的新图像。Garraghan 担心，如果他们继续探索这种漏洞，可能会生成更糟糕的图像。他说：“其他主题，我相信，如果我们花更多时间去做，也会出现。”BBC 理解到，除了新的保护措施，该公司还在持续监测并推出额外的缓解保护，鼓励模型不要对提示生成图像。像 ChatGPT 这样的大型语言模型是基于来自互联网上的现有内容拍摄的数百万张图像进行训练的。Nightingale 认为 ChatGPT 的输出反映了用于开发和训练它的数据。“让我感到震惊的是，尽管我看到的图像是生成的，人工图像，但它与真实图像和真实世界有联系，”他在报告中写道。 Mindgard 研究人员在五月首次警告 OpenAI 并分享他们的发现，但只收到来自这家科技公司的自动回复。他们相信曾经尝试阻止该提示，但很容易被绕过。在被 BBC 联系后，OpenAI 采取了更多行动。“我们还结合了自动系统和人工审核，以识别和屏蔽有害材料，”它在声明中补充道。它表示，还设有尝试阻止用户上传的违反材料的系统。其政策禁止性暴力、非自愿亲密内容、儿童性虐待材料以及试图绕过其保护措施的行为。AI 模型不是人类在其最新的文件中，描述 ChatGPT 应该如何行为，OpenAI 表示：“助手不应生成色情、违法或非自愿性行为的图像或极端血腥的内容，除非在科学、历史、新闻、艺术或其他适合敏感内容的背景下。”但它因其不可靠的性能而臭名昭著。