o3

OpenAI 新推理模型被曝产生更多“幻觉”，o3 / o4-mini 性能与错误率一同提升

根据 OpenAI 的内部测试，作为推理模型的 o3 和 o4-mini，出现幻觉的频率不仅超过了前代推理模型 o1、o1-mini 和 o3-mini，甚至还高于传统“非推理”模型（IT之家注：如 GPT-4o）。

4/19/2025 7:46:39 AM

清源

OpenAI 最强推理模型 o3 / o4-mini 发布后，“照片查位置”成最新热门玩法

ChatGPT 已成为一种强大的“定位工具”。X上的用户很快发现，o3等新模型善于从各种细节中推断城市、地标，甚至具体的餐馆和酒吧。

4/18/2025 8:16:02 AM

清源

OpenAI 新系统阻断生物和化学风险信息，保障 AI 安全

OpenAI 近期推出了一项新系统，旨在监控其最新的 AI 推理模型 o3和 o4-mini，以阻止与生物和化学威胁相关的提示。该系统的目标是防止模型提供可能教唆他人实施有害攻击的建议，确保 AI 的安全性。 OpenAI 表示，o3和 o4-mini 在能力上较之前的模型有显著提升，因此在恶意用户手中可能带来新的风险。

4/17/2025 11:01:15 AM

AI在线

OpenAI 发布全新人工智能模型，实现 “图像思考” 能力

OpenAI 最近推出了其最新的人工智能模型，名为 o3。这款模型标志着 AI 在理解和分析图像方面的一次重大进步，尤其是在处理低质量草图和图表方面。与此同时，OpenAI 还发布了一个较小的版本 o4-mini，进一步丰富了其产品线。

4/17/2025 10:01:15 AM

AI在线

OpenAI 部署新监控系统，防范 o3 和 o4 - mini 提供生物和化学威胁建议

OpenAI宣布部署新监控系统，专门监测其AI模型o3和o4-mini，防止提供有害建议。系统识别风险提示并拒绝回应，阻断比例达98.7%。#AI安全# #OpenAI#

4/17/2025 6:46:36 AM

远洋

OpenAI CEO 奥尔特曼宣布本周将推出多款新产品

OpenAI 的创始人兼首席执行官山姆・奥尔特曼在社交平台𝕏上发布消息，宣布接下来的一周将推出 “很多” 令人期待的新产品。这些产品将从周二开始陆续上线，吸引了众多科技爱好者和业内人士的关注。奥尔特曼在本月初曾提到，OpenAI 可能会在几周内发布新版本的 o3和 o4-mini，并预计在未来几个月发布 GPT-5。

4/14/2025 10:01:22 AM

AI在线

人类赢了！OpenAI深夜开源全新Agent评测基准!AI大战顶尖人类，上演机器学习届“神仙打架”；R1排第三，Claude夺冠

编辑 | 李美涵出品 | 51CTO技术栈（微信号：blog51cto）深夜，OpenAI再次发力Agent领域，开源了一个全新的AI Agent评测基准—— PaperBench。这是一个用于评估 AI 智能体复现最前沿 AI 研究能力的基准测试。智能体需从零开始复现 20 篇 ICML 2024 Spotlight 和 Oral 论文，包括理解论文贡献、构建代码库并成功执行实验。

4/3/2025 1:35:49 PM

李美涵

OpenAI 的 o3 模型在 2024 国际信息学奥林匹克竞赛中斩获金牌

近期，OpenAI 发布了一项关于其最新推理模型 o3的研究，展示了大型语言模型（LLM）如何从初学者的竞赛程序员成长为全球顶尖水平的竞争者。 o3在著名编程平台 CodeForces 上取得了2724的评分，位于前99.8% 的百分位，表现相当出色，并在2024年国际信息学奥林匹克(IOI)中获得了金牌级别的成绩。图源备注:图片由AI生成，图片授权服务商Midjourney研究表明，o3模型在 IOI 比赛中超越了专门为此活动微调的 o1-ioi 模型，这一结果表明，通过强化学习取得的成就要优于手工设计的解决方案。

2/13/2025 4:51:00 PM

AI在线

OpenAI更新o3-mini模型，展示了给出答案的 “思维链”

近日，OpenAI 在推出其旗舰 AI 模型 o3和 o3-mini 后，进行了重大更新，改变了 o3-mini 的回应方式。现在，这款模型不仅能够回答用户的问题，还能展示其思考过程，为用户提供更多透明度。这一变化标志着 OpenAI 在提升用户体验方面迈出了重要一步，使得 AI 工具的使用变得更加人性化。

2/7/2025 2:40:00 PM

AI在线

o3-mini 思维链公开却被曝光全是“作假”，阿尔特曼现身解释

在展示出来的 CoT 中，o3-mini 一步步思考，这个问题应该是用户在搞幽默，觉得本周应该快结束了，结果还没结束。因此，自己需要给一个聪明机智的回答。

2/7/2025 12:14:48 PM

清源

惊掉下巴！o3像是一个弥天大谎！基准构建者Epoch AI发长文认错曝猛料：OpenAI竟独家访问数据集，问题和答案可用来训练！

出品 | 51CTO技术栈（微信号：blog51cto）惊天大瓜来了！去年年底OpenAI 推出o3推理，在数学、编码、通用AGI方面都取得了令人的难以置信的类人甚至超人的进展。但就在昨天，大洋彼岸的一众人工智能专家开始对“o3”的这些数据表示严重的怀疑，甚至将之比作“Theranos”时刻（一家建立在巨大谎言之上的公司，项目参与人员被迫保密，外界却被蒙在鼓里）。

1/20/2025 1:37:16 PM