OpenAI 的 o3 模型在 2024 国际信息学奥林匹克竞赛中斩获金牌

近期,OpenAI 发布了一项关于其最新推理模型 o3的研究,展示了大型语言模型(LLM)如何从初学者的竞赛程序员成长为全球顶尖水平的竞争者。 o3在著名编程平台 CodeForces 上取得了2724的评分,位于前99.8% 的百分位,表现相当出色,并在2024年国际信息学奥林匹克(IOI)中获得了金牌级别的成绩。 图源备注:图片由AI生成,图片授权服务商Midjourney研究表明,o3模型在 IOI 比赛中超越了专门为此活动微调的 o1-ioi 模型,这一结果表明,通过强化学习取得的成就要优于手工设计的解决方案。

近期,OpenAI 发布了一项关于其最新推理模型 o3的研究,展示了大型语言模型(LLM)如何从初学者的竞赛程序员成长为全球顶尖水平的竞争者。o3在著名编程平台 CodeForces 上取得了2724的评分,位于前99.8% 的百分位,表现相当出色,并在2024年国际信息学奥林匹克(IOI)中获得了金牌级别的成绩。

OpenAI

图源备注:图片由AI生成,图片授权服务商Midjourney

研究表明,o3模型在 IOI 比赛中超越了专门为此活动微调的 o1-ioi 模型,这一结果表明,通过强化学习取得的成就要优于手工设计的解决方案。在 IOI2024赛事中,o3在标准条件下参与竞争,成功地跨越了金牌的门槛。同时,它在 CodeForces 上也跻身全球前200名程序员之列,能够与顶尖人类程序员展开角逐。

来自沃顿商学院的副教授 Ethan Mollick 表示:“通过强化学习发展起来的通用推理能力,现已超过了那些经过精心设计的领域特定解决方案。与其为特定任务构建专门的系统,不如通过更强的推理能力来让大型通用模型实现更优的结果。”

此次研究是 OpenAI 对其模型在竞争编程和更广泛软件工程领域表现进行评估的一部分。此外,另一家公司 Anthropic 也在本周一发布了一份关于 AI 对职场影响的报告。报告指出,约36% 的职业在至少25% 的工作任务中使用了 AI,而57% 的 AI 应用则提升了人类的能力,43% 的应用则专注于自动化。尽管如此,只有4% 的职业中,AI 被用于至少75% 的工作任务。

这项研究还表明,软件开发和技术写作是 AI 应用的主要领域,而在涉及与环境进行物理互动的任务中,AI 的作用则相对较小。

划重点:  

💻 o3模型在 CodeForces 上获得2724评分,位于前99.8% 的百分位,并在国际信息学奥林匹克中获得金牌。  

📊 强化学习的效果超越了传统的手工设计解决方案,展示出通用推理能力的优势。  

📈 AI 在职场中的应用广泛,软件开发和技术写作是其主要领域,但在物理互动任务中的应用较少。

相关资讯

OpenAI更新o3-mini模型,展示了给出答案的 “思维链”

近日,OpenAI 在推出其旗舰 AI 模型 o3和 o3-mini 后,进行了重大更新,改变了 o3-mini 的回应方式。 现在,这款模型不仅能够回答用户的问题,还能展示其思考过程,为用户提供更多透明度。 这一变化标志着 OpenAI 在提升用户体验方面迈出了重要一步,使得 AI 工具的使用变得更加人性化。

o3智商高达157?每13333人中才有一个这么高,网友:编码分数无意义

从韦氏智商测试来看,如果 o3 的 IQ 真这么高,则称得上非常优秀。 OpenAI o3 的智商(IQ)竟然已经这么高了吗今天,Reddit 上一则热帖宣称「OpenAI o3 的 IQ 估计为 157」,并放出了一张数据图。 这意味着什么呢?

确认了!o3-mini几周内发布,奥特曼表示AGI只需872兆瓦计算功率

昨天,我们报道了一个行业猜想,说是 OpenAI 和 Anthropic 等前沿大模型公司可能已经训练出了下一代大模型,但由于它们的使用成本过高,所以短时间内根本不会被放出来。 但是,为了响应用户期待,OpenAI 和 Anthropic 等公司会不断放出一些基于下一代大模型蒸馏得到的较小模型。 更多分析请参阅文章《GPT-5、 Opus 3.5 为何迟迟不发?