探索 Pangram 3.3.2 的内部表示
探索 Pangram 3.3.2 的内部表示 作者:Elyas Masrour、Katherine Thai 和 Bradley Emi 2026年6月加载可视化… 图1. 每个点代表一个人类或 AI 文档。动画展示了在 Pangram 的各层中 AI 文档与人类文档之间的逐步分离。 01 引言 自 2022 年 ChatGPT 首次亮相以来,AI 辅助写作以惊人的速度扩展。由于 AI 生成的文本现在出现在我们所阅读的很多内容中,因此显而易见的是,一些形式的写作在机器生成时失去了其价值。在学术界,论文旨在培养学生的推理能力。在市场上,产品评论之所以有价值,是因为它们反映了其他人的体验。Pangram 是一家致力于为这一问题建立最先进 AI 检测模型的研究公司。我们的旗舰产品是一种具有业界领先的低虚假正率、多语言能力以及 AI 生成与 AI 辅助写作之间区别的 AI 文本检测模型。自从我们在 2024 年发布第一篇白皮书以来,我们独特地观看了 AI 进步一波又一波。我们的研究人员与过于严格的内容过滤器斗争,不时经历模式崩溃,并躲避了破折号和“深入”的使用。我们的旗舰模型是一个经微调的 LLM,专注于这一序列分类任务。我们不使用诸如困惑度或突发性等自定义指标。我们不进行任何手动特征提取。我们确实有一款面向客户的产品 AI Phrases,为用户提供有关在 AI 文本中出现频率更高的短语的信息。但这些并不是直接作为模型的特征使用。过了一段时间,人们开始好奇。模型看到了什么?对我们研究人员而言,这个问题至关重要。我们有强烈的激励去防止捷径,修复意外的模型行为,并深入理解这一问题。在这篇文章中,我们将概述我们使用文档级分析的初步可解释性工作。 02 数据 我们从生产训练集中提取了在域内保留的样本,构建了一个可解释性数据集。本页面上的交互式浏览器使用了一个平衡的 5000 文档子集,其中人类与 AI 文档各占一半,分布在 20 个偶数层中。AI 样本跨越了以下模型变体,这些变体用于分类器探测的六个模型家族。 模型 Claude 3.7 Sonnette Claude Sonnette 4 Claude Sonnette 4.5 Claude Opus 4 Claude Opus 4.1 Claude Opus 4.5 GPT-3.5 Turbo (23年11月) GPT-3.5 Turbo (24年1月) GPT-4 (23年3月) GPT-4 (23年6月) GPT-4o GPT-5 GPT-5.1 GPT-5.2 o1 Gemini 2.0 Flash Gemini 2.5 Flash Gemini 2.5 Pro Gemini 3 Pro DeepSeek R1 DeepSeek V3 Qwen 2.5 7B Qwen 2.5 72B Qwen 3 235B Llama 3.1 8B Llama 3.1 70B 来源领域 新闻 科学摘要 产品评论 商业评论 Reddit 创意写作 Reddit ELI5 自出版书籍 古腾堡计划书籍 维基百科(英语) 维基百科(多语言) Lang-8(ESL) 03 Pangram 3.3.2 概述 Pangram 3.3.2 是 Pangram Labs 于 2026 年发布的 AI 检测模型。它使用与 Pangram 3.3 相同的基础模型,并通过后续的错误修复来提高性能。Pangram 3.3 继承了 Pangram 3.2 的成果,提高了对较新 LLM 输出的人类文本和长篇 AI 生成内容的召回率,并减少了对非母语英语写作的误报。 模型卡 阅读 Pangram 3.3 模型卡 查看 Pangram 3.3.2 的发布详情。阅读文章 可解释性工作仍在进行中。在整篇文章中,我们还将我们的方法溯及应用于 Pangram 3.2 和 Pangram 3.1。 04 方法 激活 EditLens 架构是一个基于桶的分类系统,最终无法区分 ai_assistance_score 。对于这个项目,我们丢弃模型的最终输出,而是专注于模型所学习的内部表示。为了探查这些内部表示,我们通过对给定输入文档的模型进行前向传播身份获取激活,并在多个内部层保存模型的隐藏表示。对于这个项目,我们提取了整个网络中每个偶数层的每个文档的激活。 降维 每个提取的激活向量是 5120 维的。为了更好地理解表示,我们使用了多种降维技术。 PCA 主成分分析(PCA)是最简单的线性投影:它在激活空间中找到最大方差的方向。在这个项目中,我们发现接近网络结束时,大多数方差集中在主成分 1 和 2 中,所以我们将它们绘制在一起。 UMAP UMAP 提供了一种旨在保持邻域结构的非线性视图。如果两个文档在模型的内部空间中彼此接近,UMAP 会尽量在二维空间中保持它们接近。然而,聚类之间的确切轴和距离不应过度解读。
本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。
☕请我喝杯咖啡