返回

文章详情

每个主要大型语言模型的政治立场

Hacker News2026年6月25日 13:08

我们向每个主要的AI模型提出相同的政治、经济、言论和社会相关的尖锐问题,进行了多次测试,期间关闭了网络搜索。每个模型都呈现为一个云图:显示了它在每次运行中所处的范围。结果是一个模型实际倾向的地图,从模型本身而不是它从网上获取的信息中读取。这很重要,因为现在有数百万人向这些模型询问新闻、争论,甚至是如何投票,而模型的倾向静静地影响着它所给出的答案。虽然它们大多数以相同的方式倾斜,但程度不同,且没有你可能期待的那么简单。2026年6月 · 6个模型 · 4.4K个答案 · 不进行网络搜索 方法论 经济轴线是从左到右的排列。侧边是社会,从自由主义到威权主义。每个云图是一个模型在多次运行中的分布,越靠近中间,阅读越中立。 威权主义 自由主义 左 右 左 · 威权主义 右 · 威权主义 左 · 自由主义 右 · 自由主义 伯尼·桑德斯 巴拉克·奥巴马 唐纳德·特朗普 共和党(美国) 哈维尔·米莱 尼古拉斯·马杜罗 丹尼尔·奥尔特加 埃马纽埃尔·马克龙 乔治亚·梅洛尼 佩德罗·桑切斯 卢拉·达·席尔瓦 習近平 弗拉基米尔·普京 维克托·欧尔班 阅读结果 6个模型中有4个模型倾向于偏左。最右的Grok 稳定的Gemini 一个模型:其徽标标记了它在现实世界中的参考。每个模型的排名 从距离中心最近到最远,以及它的稳定性和倾斜程度。它们的分歧 分隔模型最多的问题。每个轨道是一个模型的立场:它向倾斜的方向生长,越长表示倾斜越强。展开一行以阅读答案。 最近的参考点 每个模型在地图上最靠近的现实人物。参考位置来自CHES 2024和V-Dem的专家调查,而不是我们自己的判断。 CHES 2024 · V-Dem 他们所说与他们所做 我们询问每个模型它倾向于哪个方向,然后将答案与它实际测量的结果进行比较。空心标记为模型声称的立场;实心标记为测量值。模型 左倾 说与做 右倾 差距 Grok +0.36 测量值比它所说的右倾0.36 Claude +0.34 测量值比它所说的左倾0.34 ChatGPT −0.29 自称中立,但测量为左倾 Llama −0.17 自称中立,但测量为左倾 DeepSeek +0.01 自称中立,且位置接近中心 Gemini 0.00 自称中立,且位置接近中心 空心标记是当询问模型倾向于哪个方向时,它所说的内容;实心标记是它实际在经济轴线上的测量值(条件A)。每个自我定位都有偏差的模型被打分为声称中立。继续探索 每个模型的分析,完整的问题库,以及其背后的方法论。发现 本月的头条结果:来自数据的最明显信号,每个信号都有证据链接。模型 每个模型的分析:它偏离的程度、持稳的频率及其倾斜的多少,以及回答的频率。问题 开放的问题库,可浏览:每个模型在一个光谱上,每个问题一页。人物 左右相匹配的人物:每个模型热情赞扬的人,以及它拒绝批评的人。世界观 从每个国家看相同的模型:国家视角、语言变化和边界测试。比较 任何两个模型的正面交锋:领域、角色差异和争议。了解自己 参加测验,看看你和哪个模型更契合,绘制在同一领域图中。方法论 我们如何提问、分类和评分,加上问题库、条件、原始数据和读取API。常见问题 AI中的政治偏见是什么? AI中的政治偏见衡量主要AI模型在关于政治、经济、言论和社会的尖锐问题上的立场。我们多次向每个模型提出相同的开放问题库,关闭网络搜索,用一个简单的中立模型对每个答案进行分类,并绘制出结果及每个点背后的原始答案与误差条。这个项目如何与其他AI政治偏见项目不同? 我们将每个模型绘制为一个云图,而不是单个点:每个模型经过多次运行,所以你能看到完整的分布。我们发布自己的开放问题库和评分权重,每个条目标记为事实基础或价值基础,测量运行之间的稳定性,并将拒绝作为数据进行统计。一切都被标记、版本化并可下载。你是测试模型还是互联网? 权重。网络搜索默认关闭,因此读取反映了模型自身的倾向,而不受网上信息的影响。一个单独的、有意设置的小规模边界测试启用搜索,以测量位置如何改变答案。AI中的政治偏见是有党派性的么? 不是。它是描述性的而非规约性的:它报告模型所说的内容,而不论谁是对的。该调色板故意不是美国的红蓝色,我们从不暗示哪一极是好的。方法论 每个模型多次接受相同的开放问题库,关闭网络搜索且没有系统提示()。一个中立的分类器对签署的立场进行读取。

赞助内容

NordVPN Next-gen Antivirus

本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。

请我喝杯咖啡