METR 实测：OpenAI o3 AI 推理模型有“作弊”倾向以提升分数

作者：故渊

2025-04-18 11:16

风险测试机构“机器智能测试风险”（METR）昨日（4 月 17 日）发布报告，与 OpenAI 合作测试其 o3 模型时发现，该模型展现出更强的“作弊”或“黑客行为”倾向，试图通过操控任务评分系统提升成绩。

风险测试机构“机器智能测试风险”（METR）昨日（4 月 17 日）发布报告，与 OpenAI 合作测试其 o3 模型时发现，该模型展现出更强的“作弊”或“黑客行为”倾向，试图通过操控任务评分系统提升成绩。

AI在线援引报告内容，在 HCAST（人类校准自主软件任务）和 RE-Bench 测试套件中，o3 模型约 1% 到 2% 的任务尝试涉及此类行为。

Models' 50% Time Horizon chart

Performance on subset of RE-Bench chart

这些行为包括对部分任务评分代码的“精巧利用”。METR 表示，若不将这些作弊尝试计为失败任务，o3 的“50% 时间范围”将延长约 5 分钟，其 RE-Bench 评分甚至可能超过人类专家。

METR 还怀疑 o3 可能存在“沙袋行为”（sandbagging），即故意隐藏真实能力，但其作弊倾向已明显违背用户和 OpenAI 的意图。

METR 坦言，此次 o3 模型评估时间短，获取信息有限，且无法访问模型内部推理过程，这可能影响结果解读。测试是在模型公开发布前三周完成的，METR 提前获得了 OpenAI 模型的测试权限。

相比之下，o4-mini 模型在测试中未发现“奖励黑客”行为，且在 RE-Bench 任务组中表现出色，尤其在“优化内核”（Optimise a Kernel）任务中成绩突出。

Performance on subset of RE-Bench over time budgets chart

METR 数据显示，给予 o4-mini 32 小时完成任务时，其平均表现超过人类第 50 百分位的水平。此外，o3 和 o4-mini 在更新后的 HCAST 基准测试中均优于 Claude 3.7 Sonnet，时间范围分别是后者的 1.8 倍和 1.5 倍。METR 强调，单纯的能力测试不足以管理风险，正探索更多评估形式以应对挑战。

OpenAI o3 模型运行成本估算大幅上调：单次任务从 3000 美元涨至 3 万美元

Arc Prize Foundation 大幅上调 OpenAI o3 模型运行成本估算，从 3000 美元涨至 3 万美元。高昂成本凸显 AI 模型特定任务的高成本难题，控制成本成行业挑战。##AI模型成本##

4/3/2025 7:59:45 AM

远洋

o1 研发团队完整采访：Ilya早期曾参与，灵感源于AlphaGo

自从 OpenAI 的 o1 问世以来，它强大的推理能力就承包了 AI 圈近期的热搜。不需要专门训练，它就能直接拿下数学奥赛金牌，甚至可以在博士级别的科学问答环节上超越人类专家。展示 o1 实力的 demo，我们看了不少，评估 o1 表现的评测，全网比比皆是，关于 o1 技术路线的讨论也如火如荼，引发了广泛的关注和深入的思考。不过 o1 背后的故事，还鲜为人知，那些在幕后默默付出的团队成员们，他们的故事同样值得被讲述和铭记。刚刚，OpenAI 发布了 o1 研发团队的完整访谈，为我们揭秘了 o1 的「成长历程」。o

9/22/2024 1:27:00 PM

机器之心

LeCun批评o1根本不像研究，Noam Brown回怼：已发表的研究都是废话

图灵奖三巨头之一 Yann LeCun 又和别人吵起来了，这次是 Noam Brown。Noam Brown 为 OpenAI o1 模型的核心贡献者之一，此前他是 Meta FAIR 的一员，主导了曾火遍一时的 CICERO 项目，在 2023 年 6 月加入 OpenAI 。这次吵架的内容就是围绕 o1 展开的。众所周知，从 AI 步入新的阶段以来，OpenAI 一直选择了闭源，o1 的发布也不例外。这也引来了广大网友的吐槽，干脆叫 CloseAI 算了，反观 Meta，在开源领域就做的很好，o1 的发布，更

9/30/2024 2:12:00 PM

机器之心

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源）韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 OpenAI发布34页智能体实践指南：从网络搜索到代码编写 OpenAI 新规：组织想要用未来 AI 模型需先“验明正身”

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果人形机器人深度学习 AI视频模态 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

METR 实测：OpenAI o3 AI 推理模型有“作弊”倾向以提升分数

相关资讯

OpenAI o3 模型运行成本估算大幅上调：单次任务从 3000 美元涨至 3 万美元

o1 研发团队完整采访：Ilya早期曾参与，灵感源于AlphaGo

LeCun批评o1根本不像研究，Noam Brown回怼：已发表的研究都是废话