Epoch AI 2025 年度报告:AI 能力进步在2024年出现“加速拐点”,但跑分可比性仍是难题
Epoch AI 发布 2025 年度回顾,针对其自研的“能力指数”(Epoch Capabilities Index),最强模型的最佳得分在过去两年的增长速度几乎是此前两年的两倍,并在2024年4月左右出现明显加速;拟合结果显示,前沿能力提升率大致从约8点/年提高到约15点/年。研究者认为,这一变化与“推理模型”的兴起以及前沿实验室更重视强化学习(RL)训练的趋势相吻合。
与此同时,Epoch AI 发现:即便使用同一基准测试名称,分数也未必可直接横向比较——差异既可能来自基准测试的设置(提示词、采样参数、scaffolds 等),也可能来自模型接入方式(不同API供应商)。其中,scaffolds 对“代理型/工具型”评测影响尤其大,而API供应商的bug与不稳定性是评测误差的最大来源,往往对新模型影响更突出。