OpenAI的AI复现论文新基准,Claude拿了第一名

近年来,AI 正从科研辅助工具蜕变为创新引擎:从 DeepMind 破解蛋白质折叠难题的 AlphaFold,到 GPT 系列模型展现文献综述与数学推理能力,人工智能正逐步突破人类认知边界。 今年 3 月 12 日,Sakana AI 宣布他们推出的 AI Scientist-v2 通过了 ICLR 会议一个研讨会的同行评审过程。 这是 AI 科学家写出的首篇通过同行评审的科研论文!

近年来,AI 正从科研辅助工具蜕变为创新引擎:从 DeepMind 破解蛋白质折叠难题的 AlphaFold,到 GPT 系列模型展现文献综述与数学推理能力,人工智能正逐步突破人类认知边界。

今年 3 月 12 日,Sakana AI 宣布他们推出的 AI Scientist-v2 通过了 ICLR 会议一个研讨会的同行评审过程。这是 AI 科学家写出的首篇通过同行评审的科研论文!

图片

这一里程碑事件标志着 AI 在科研领域的突破,同时人们也在进一步探索 AI 智能体的自主研究能力。

4 月 3 日,OpenAI 推出了 PaperBench(论文基准测试),这是一个用于评估 AI 智能体自主复现前沿人工智能研究能力的基准测试系统。如果大模型智能体具备了自动写 AI / 机器学习研究论文的能力,既可能加速机器学习领域的发展,同时也需要审慎评估以确保 AI 能力的安全发展。

PaperBench 在多个重要的 AI 安全框架中发挥评估作用:

  • 作为 OpenAI 准备框架(OpenAI Preparedness Framework)中评估模型自主性的标准

  • 用于 Anthropic 负责任扩展政策(Responsible Scaling Policy)中的自主能力评估

  • 应用于谷歌 DeepMind 前沿安全框架(Frontier Safety Framework)中的机器学习研发评估

图片

  • 论文标题:PaperBench: Evaluating AI’s Ability to Replicate AI Research

  • 论文链接:https://cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf

  • 代码地址:https://github.com/openai/preparedness/tree/main/project/paperbench

研究团队构建了一个测试环境,用于评估具有自主编程能力的 AI 智能体。在该基准测试中,研究团队要求智能体复现机器学习研究论文中的实验结果。完整的复现流程包括论文理解、代码库开发以及实验执行与调试。这类复现任务具有较高难度,即便对人类专家而言也需要数天时间完成。

测试基准选取了机器学习顶会 ICML 2024 的 20 篇入选论文,还都是 Spotlight 和 Oral 的。这些论文覆盖了 12 个不同的研究主题,包括 deep reinforcement learning、robustness 和 probabilistic methods 等。每篇论文都配备了详细的评分标准,共计 8316 个可独立评估的复现成果。为确保评估质量,PaperBench 中的评分标准均与原论文作者协作制定,并采用层级结构设计,使复现进度可以在更细粒度上进行衡量。

鉴于机器学习论文的复杂性,人类专家评估单次复现尝试往往需要数十小时。为提高评估效率,研究团队开发了基于 LLM 的自动评判系统,并设计了 JudgeEval 辅助评估框架,用于将自动评判结果与人类专家评判的金标数据集进行对比。其中,使用定制框架的 o3-mini-high 评判器表现最佳,在辅助评估中获得 0.83 的 F1 分数,证明其可作为人类评判的可靠替代方案。

图片

研究表明,智能体在复现机器学习研究论文方面展现出了不容忽视的能力。Claude 3.5 Sonnet (最新版)在配备基础代理框架的情况下,于 PaperBench 基准测试中获得了 21.0% 的得分。

研究团队选取了 3 篇论文组成的测试子集进行深入评估,以机器学习博士的表现作为人类基准(采用 3 次测试中的最优成绩)。在 48 小时的测试时间内,人类基准达到了 41.4% 的得分,而 GPT-4(o1)在相同子集上获得了 26.6% 的得分。此外,研究团队还开发了一个轻量级评估版本 ——PaperBench Code-Dev,在该版本中,GPT-4 的表现提升至 43.4% 的得分。

PaperBench

任务

对于 PaperBench 中的每个样本,受评估的智能体会收到论文及其补充说明。

在这里,智能体需要提交一个代码仓库,其中包含复现论文实验结果所需的全部代码。该仓库根目录必须包含一个 reproduce.sh 文件,作为执行所有必要代码以复现论文结果的入口点。

如果 reproduce.sh 能够复现论文中报告的实验结果,则视为成功复现该论文。 

该数据集包含了用于定义每篇论文成功复现所需具体结果的评分标准。为防止过度拟合,智能体在尝试过程中不会看到评分标准,而是需要从论文中推断出需要复现的内容。 

重要的是,该评估禁止智能体使用或查看论文作者的原始代码库(如果有的话)。这确保了评估的是智能体从零开始编码和执行复杂实验的能力,而不是使用现有研究代码的能力。

图片

规则

PaperBench 的设计对智能体框架保持中立,因此对其运行环境没有特定要求。不过为确保公平比较,该基准测试制定了以下规则:

  • 智能体可以浏览互联网,但不得使用团队为每篇论文提供的黑名单中列出的网站资源。每篇论文的黑名单包括作者自己的代码仓库以及任何其他在线复现实现。

  • 智能体可使用的资源,如运行时间和计算资源,不受任何限制。但建议研究人员在结果中报告其具体设置。

  • 开发者应为智能体提供必要的在线服务 API 密钥(例如用于下载数据集的 HuggingFace 凭证)。获取在线账号访问权限不属于 PaperBench 意在评估的技能范畴。

评分标准

为每篇论文制定评分标准是开发 PaperBench 最耗时的部分。每份评分标准都是 OpenAI 与每篇论文的一位原作者合作编写的,从阅读论文、初步创建、评分标准审查、迭代到最终签收,每篇论文需要数周时间。

每个评分标准都以树的形式构建,该树按层次分解了复现给定论文所需的主要结果。例如,根节点以预期的最高级别结果开始,例如「论文的核心贡献已被复现」。第一级分解可能会为每个核心贡献引入一个节点。每个节点的子节点都会更详细地介绍具体结果,例如「已使用 B.1 节中的超参数在数据集上对 gpt2-xl 进行了微调」。

重要的是,满足节点的所有子节点表示父节点也已得到满足,因此对树的所有叶节点进行评分就足以全面评估整体成功率。

叶节点具有精确而细致的要求。拥有许多细致的要求使我们能够对部分尝试进行评分,并使评委更容易对单个节点进行评分。作者不断分解节点,直到它们所代表的要求足够精细,以至于估计专家可以在不到 15 分钟的时间内审查一份提交是否满足要求(假设熟悉该论文)。在 PaperBench 的 20 篇论文中共有 8316 个叶节点。表 2 显示了每个评分标准中的节点总数。

图片

所有评分标准节点也都有权重,每个节点的权重表示该贡献相对于其兄弟节点的重要性,而不一定是节点的实施难度。加权节点奖励在复现时优先考虑论文中更重要的部分。

用大模型判断

在初步实验中,OpenAI 发现使用专家进行手动评分每篇论文需要花费数十小时,因此对于 PaperBench 的实际应用而言,采用自动化方式进行评估是必要的。

为了对 PaperBench 提交的内容进行规模评估,作者开发了一个简单的基于 LLM 的评判器 SimpleJudge,然后创建了辅助评估 JudgeEval 以评估评判器的表现。

AI 的评委实现被称为「SimpleJudge」,给定一份提交内容,PaperBench 的 AI 评委将独立地对评分标准中的每个叶节点进行评分。对于特定的叶节点,评委将收到论文的 Markdown、完整的评分标准 JSON、叶节点的要求和提交内容。

PaperBench 使用 OpenAI 的 o3-mini 作为评委的后端模型,预估对单个提交内容进行评分的成本约为 66 美元(OpenAI API 积分)。对于 PaperBench Code-Dev,成本可以降至每篇论文约 10 美元。

图片

测试结果

OpenAI 基于全部 20 篇论文评估了 GPT-4o、o1、o3-mini、DeepSeek-R1、Claude 3.5 Sonnet(新版本)和 Gemini 2.0 Flash 几种大模型,每篇论文评估了 3 次。

表 4 列出了每个模型的平均复现分数。可见 Claude 3.5 Sonnet 的表现不错,得分为 21.0%。OpenAI o1 表现较差,得分为 13.2%,其他模型则表现不佳,得分低于 10%。

图片

检查智能体工作日志可以发现,除 Claude 3.5 Sonnet 外,其他所有模型经常会提前结束,声称自己要么已经完成了整个仿写,要么遇到了无法解决的问题。所有智能体都未能制定在有限时间内复现论文的最优策略。可以观察到 o3-mini 经常在工具使用方面遇到困难。

这些情况表明当前模型在执行长期任务方面存在弱点;尽管大模型在制定和编写多步骤计划方面表现出足够的能力,但实际上未能采取一系列行动来执行该计划。

图片

图片

OpenAI 相信,PaperBench 基准将会推动未来大模型能力继续上升。

参考内容:

https://openai.com/index/paperbench/

相关资讯

OpenAI o3 模型运行成本估算大幅上调:单次任务从 3000 美元涨至 3 万美元

Arc Prize Foundation 大幅上调 OpenAI o3 模型运行成本估算,从 3000 美元涨至 3 万美元。高昂成本凸显 AI 模型特定任务的高成本难题,控制成本成行业挑战。##AI模型成本##