CursorBench 3.1

我们评估了在真实 Cursor 会话中的模糊多文件任务上的代理。得分越高越好。关于 CursorBench 的更多信息。散点和折线图比较了 Fable 5、Opus 4.8、Opus 4.7、GPT-5.5、Sonnet 5、Sonnet 4.6、GLM 5.2、Composer 2.5 和 Composer 2 的得分与每个任务的平均成本。75% CursorBench 3.1 得分70%65%60%55%50%45%$20$16$12$8$4$0 每个任务的平均成本Fable 5 高Composer 2.5GPT-5.5 中等Gemini 3.5 FlashOpus 4.8 高Sonnet 5 高Kimi K2.7 代码GLM 5.2 高模型 1 Fable 5 最大 72.9% $18.02 63,842 76 2 Fable 5 超高 72.0% $13.74 48,754 63 3 Fable 5 高 70.6% $10.81 37,173 54 4 Fable 5 中等 69.8% $8.27 28,507 47 5 Opus 4.7 最大 64.8% $11.02 62,989 96 6 GPT-5.5 超高 64.3% $4.37 17,905 46 7 Fable 5 低 64.2% $5.70 18,882 36 8 Opus 4.8 最大 63.8% $7.59 77,370 60 9 Composer 2.5 63.2% $0.55 15,152 37 10 GPT-5.5 高 62.6% $3.59 13,329 40 11 Opus 4.8 超高 62.1% $6.14 55,622 54 12 Opus 4.7 超高 61.6% $7.11 43,942 72 13 Sonnet 5 最大 61.2% $6.87 93,485 93 14 Opus 4.7 高 59.4% $5.01 32,227 59 15 GPT-5.5 中等 59.2% $2.22 9,065 35 16 Opus 4.8 高 58.4% $4.41 36,788 45 17 Sonnet 5 超高 58.4% $5.23 58,228 86 18 Sonnet 5 高 57.0% $3.74 41,735 66 19 Opus 4.8 中等 56.6% $3.83 31,684 41 20 Sonnet 5 中等 54.9% $2.57 27,469 53 21 GLM 5.2 最大 54.6% $3.11 51,312 83 22 Opus 4.8 低 54.3% $2.93 22,726 36 23 Opus 4.7 中等 52.7% $2.93 19,193 41 24 Kimi K2.7 代码 52.7% $1.92 32,902 70 25 Composer 2 52.2% $0.56 14,163 40 26 GLM 5.2 高 50.7% $2.46 30,621 76 27 Gemini 3.5 Flash 49.8% $1.94 35,105 79 28 Sonnet 4.6 最大 49.0% $3.09 40,280 55 29 GPT-5.5 低 48.8% $1.19 4,923 24 30 Sonnet 4.6 高 48.8% $3.06 37,352 57 31 Opus 4.7 低 48.3% $1.87 13,164 29 32 Sonnet 5 低 47.7% $1.46 17,028 37 33 Kimi 2.6 47.6% $1.27 24,783 56 34 Sonnet 4.6 中等 46.0% $2.64 31,360 50 35 Sonnet 4.6 低 41.5% $1.89 21,211 50 36 Kimi 2.5 31.9% $0.87 9,446 30更新日志 CursorBench 3.1 引入了专注于代码库理解、错误查找、计划和代码审查的问题。改进了某些编辑任务的评分标准。CursorBench 3.0 初始任务集专注于编辑、重构和修复错误的问题。每个任务的平均成本是通过对每个模型发布的百万标记定价（输入、缓存读取、缓存写入和输出）应用到其在每个 CursorBench 3.1 任务中使用的标记，然后在任务之间取平均得出的。结果可能会有方差；得分的小差异可能在统计上没有实际意义。