科技动态 — 2025-12-25 16:45

Epoch AI 2025 年度报告：AI 能力进步在2024年出现“加速拐点”，但跑分可比性仍是难题

Epoch AI 发布 2025 年度回顾，针对其自研的“能力指数”（Epoch Capabilities Index），最强模型的最佳得分在过去两年的增长速度几乎是此前两年的两倍，并在2024年4月左右出现明显加速；拟合结果显示，前沿能力提升率大致从约8点/年提高到约15点/年。研究者认为，这一变化与“推理模型”的兴起以及前沿实验室更重视强化学习（RL）训练的趋势相吻合。

与此同时，Epoch AI 发现：即便使用同一基准测试名称，分数也未必可直接横向比较——差异既可能来自基准测试的设置（提示词、采样参数、scaffolds 等），也可能来自模型接入方式（不同API供应商）。其中，scaffolds 对“代理型/工具型”评测影响尤其大，而API供应商的bug与不稳定性是评测误差的最大来源，往往对新模型影响更突出。

Epoch AI(1, 2, 3)