Grok Build 0.1：智能、性能和价格分析

智能更新人工分析智能指数人工分析智能指数 v4.1 纳入了 9 个评估：GDPval-AA v2，𝜏³-银行，Terminal-Bench v2.1，SciCode，人类的最后考试，GPQA 钻石，CritPt，AA-全知，AA-LCR。目前不可用的推理模型用灯泡图标表示。人工分析智能指数 v4.1 包括：GDPval-AA v2，𝜏³-银行，Terminal-Bench v2.1，SciCode，人类的最后考试，GPQA 钻石，CritPt，AA-全知，AA-LCR。有关详细信息，请参见智能指数方法，包括每个评估的详细分解及其运行方式。人工分析智能指数由开放权重/专有人工分析智能指数 v4.1 纳入了 9 个评估：GDPval-AA v2，𝜏³-银行，Terminal-Bench v2.1，SciCode，人类的最后考试，GPQA 钻石，CritPt，AA-全知，AA-LCR。目前不可用的推理模型用灯泡图标表示。人工分析智能指数 v4.1 包括：GDPval-AA v2，𝜏³-银行，Terminal-Bench v2.1，SciCode，人类的最后考试，GPQA 钻石，CritPt，AA-全知，AA-LCR。有关详细信息，请参见智能指数方法，包括每个评估的详细分解及其运行方式。指示模型权重是否可用。如果权重可用但商业使用受到限制（通常需要获得付费许可证），则模型标记为“商业使用受限”。智能评估由人工分析独立测量，·较高则更好，代理现实世界工作任务，（Elo-500）/2000 代理工具使用代理编码和终端使用代理知识工作，（Elo-500）/2000 推理模型用灯泡图标表示。尽管模型智能通常在用例之间转换，但特定评估可能对某些用例更具相关性。人工分析智能指数 v4.1 包括：GDPval-AA v2，𝜏³-银行，Terminal-Bench v2.1，SciCode，人类的最后考试，GPQA 钻石，CritPt，AA-全知，AA-LCR。有关详细信息，请参见智能指数方法，包括每个评估的详细分解及其运行方式。AA-公文包新的 AA-公文包 Elo AA-公文包是由人工分析开发的代理知识工作基准。AA-公文包 Elo 是一个综合指标，聚合了评分通过率、分析质量 Elo 和演示 Elo·较高则更好。目前不可用的推理模型用灯泡图标表示。AA-公文包 Elo 是一个综合指标，聚合了分析质量 Elo、演示 Elo 和评分通过率，其中评分性能通过合成的面对面匹配转换为 Elo。Elo 和 95% 置信区间界限被限制为 0。开放性人工分析开放指数：分数开放性指数在 0 到 100 的标准化范围内评估模型开放性（分数越高，越开放）。推理模型用灯泡图标表示。智能指数比较智能与每个智能指数任务的成本，人工分析智能指数·每个人工分析智能指数任务的加权平均成本（美元）最具有吸引力的象限。推理模型用灯泡图标表示。每个智能指数任务的加权平均成本。每个评估的成本根据输入、缓存命中、缓存写入、推理和答案令牌价格计算，除以任务数量，并按其智能指数权重加权。人工分析智能指数 v4.1 包括：GDPval-AA v2，𝜏³-银行，Terminal-Bench v2.1，SciCode，人类的最后考试，GPQA 钻石，CritPt，AA-全知，AA-LCR。有关详细信息，请参见智能指数方法，包括每个评估的详细分解及其运行方式。令牌使用更新每个智能指数任务的输出令牌，加权平均每个智能指数任务运行所需的输出令牌数量。推理模型用灯泡图标表示。每个智能指数任务所需的令牌数。通过将每个评估的输出令牌乘以智能指数中每个基准的相对权重，然后除以任务数量（不包括重复）计算的。价格和成本更新每个智能指数任务的成本每个人工分析智能指数任务按令牌类型分段的加权平均成本（美元）。更低更好。推理模型用灯泡图标表示。每个智能指数任务的加权平均成本。每个评估的成本根据输入、缓存命中、缓存写入、推理和答案令牌价格计算，除以任务数量，并按其智能指数权重加权。运行人工分析智能指数的成本（美元）运行人工分析智能指数中所有评估的成本。推理模型用灯泡图标表示。计算运行人工分析智能指数中评估的成本，使用模型的输入、缓存命中、缓存写入、推理和答案令牌价格。