AIGC宇宙 AIGC宇宙

o3

OpenAI 新推理模型被曝产生更多“幻觉”,o3 / o4-mini 性能与错误率一同提升

根据 OpenAI 的内部测试,作为推理模型的 o3 和 o4-mini,出现幻觉的频率不仅超过了前代推理模型 o1、o1-mini 和 o3-mini,甚至还高于传统“非推理”模型(IT之家注:如 GPT-4o)。
4/19/2025 7:46:39 AM
清源

OpenAI 最强推理模型 o3 / o4-mini 发布后,“照片查位置”成最新热门玩法

ChatGPT 已成为一种强大的“定位工具”。X上的用户很快发现,o3等新模型善于从各种细节中推断城市、地标,甚至具体的餐馆和酒吧。
4/18/2025 8:16:02 AM
清源

​OpenAI 新系统阻断生物和化学风险信息,保障 AI 安全

OpenAI 近期推出了一项新系统,旨在监控其最新的 AI 推理模型 o3和 o4-mini,以阻止与生物和化学威胁相关的提示。 该系统的目标是防止模型提供可能教唆他人实施有害攻击的建议,确保 AI 的安全性。 OpenAI 表示,o3和 o4-mini 在能力上较之前的模型有显著提升,因此在恶意用户手中可能带来新的风险。
4/17/2025 11:01:15 AM
AI在线

OpenAI 发布全新人工智能模型,实现 “图像思考” 能力

OpenAI 最近推出了其最新的人工智能模型,名为 o3。 这款模型标志着 AI 在理解和分析图像方面的一次重大进步,尤其是在处理低质量草图和图表方面。 与此同时,OpenAI 还发布了一个较小的版本 o4-mini,进一步丰富了其产品线。
4/17/2025 10:01:15 AM
AI在线

OpenAI 部署新监控系统,防范 o3 和 o4 - mini 提供生物和化学威胁建议

OpenAI宣布部署新监控系统,专门监测其AI模型o3和o4-mini,防止提供有害建议。系统识别风险提示并拒绝回应,阻断比例达98.7%。#AI安全# #OpenAI#
4/17/2025 6:46:36 AM
远洋

OpenAI CEO 奥尔特曼宣布本周将推出多款新产品

OpenAI 的创始人兼首席执行官山姆・奥尔特曼在社交平台𝕏上发布消息,宣布接下来的一周将推出 “很多” 令人期待的新产品。 这些产品将从周二开始陆续上线,吸引了众多科技爱好者和业内人士的关注。 奥尔特曼在本月初曾提到,OpenAI 可能会在几周内发布新版本的 o3和 o4-mini,并预计在未来几个月发布 GPT-5。
4/14/2025 10:01:22 AM
AI在线

人类赢了!OpenAI深夜开源全新Agent评测基准!AI大战顶尖人类,上演机器学习届“神仙打架”;R1排第三,Claude夺冠

编辑 | 李美涵出品 | 51CTO技术栈(微信号:blog51cto)深夜,OpenAI再次发力Agent领域,开源了一个全新的AI Agent评测基准—— PaperBench。 这是一个用于评估 AI 智能体复现最前沿 AI 研究能力的基准测试。 智能体需从零开始复现 20 篇 ICML 2024 Spotlight 和 Oral 论文,包括理解论文贡献、构建代码库并成功执行实验。
4/3/2025 1:35:49 PM
李美涵

OpenAI 的 o3 模型在 2024 国际信息学奥林匹克竞赛中斩获金牌

近期,OpenAI 发布了一项关于其最新推理模型 o3的研究,展示了大型语言模型(LLM)如何从初学者的竞赛程序员成长为全球顶尖水平的竞争者。 o3在著名编程平台 CodeForces 上取得了2724的评分,位于前99.8% 的百分位,表现相当出色,并在2024年国际信息学奥林匹克(IOI)中获得了金牌级别的成绩。 图源备注:图片由AI生成,图片授权服务商Midjourney研究表明,o3模型在 IOI 比赛中超越了专门为此活动微调的 o1-ioi 模型,这一结果表明,通过强化学习取得的成就要优于手工设计的解决方案。
2/13/2025 4:51:00 PM
AI在线

OpenAI更新o3-mini模型,展示了给出答案的 “思维链”

近日,OpenAI 在推出其旗舰 AI 模型 o3和 o3-mini 后,进行了重大更新,改变了 o3-mini 的回应方式。 现在,这款模型不仅能够回答用户的问题,还能展示其思考过程,为用户提供更多透明度。 这一变化标志着 OpenAI 在提升用户体验方面迈出了重要一步,使得 AI 工具的使用变得更加人性化。
2/7/2025 2:40:00 PM
AI在线

o3-mini 思维链公开却被曝光全是“作假”,阿尔特曼现身解释

在展示出来的 CoT 中,o3-mini 一步步思考,这个问题应该是用户在搞幽默,觉得本周应该快结束了,结果还没结束。因此,自己需要给一个聪明机智的回答。
2/7/2025 12:14:48 PM
清源

惊掉下巴!o3像是一个弥天大谎!基准构建者Epoch AI发长文认错曝猛料:OpenAI竟独家访问数据集,问题和答案可用来训练!

出品 | 51CTO技术栈(微信号:blog51cto)惊天大瓜来了! 去年年底OpenAI 推出o3推理,在数学、编码、通用AGI方面都取得了令人的难以置信的类人甚至超人的进展。 但就在昨天,大洋彼岸的一众人工智能专家开始对“o3”的这些数据表示严重的怀疑,甚至将之比作“Theranos”时刻(一家建立在巨大谎言之上的公司,项目参与人员被迫保密,外界却被蒙在鼓里)。
1/20/2025 1:37:16 PM

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

OpenAI o3还没上线,就被曝数学成绩是靠作弊得来? Benchmark发布机构内部人员爆料称,OpenAI给了他们经费赞助。 就连包括陶哲轩在内参与出题的60余名数学家,在消息曝光之前也都和普通公众一样蒙在鼓里。
1/20/2025 1:17:11 PM

OpenAI o3 碾压式 AI 数学成绩遭质疑:既当选手又是裁判,翻版 Theranos 世纪骗局

科技媒体 TechCrunch 昨日(1 月 19 日)发布博文,报道称 Epoch AI 因未及时披露 OpenAI 的资助而引发争议,其开发的数学基准测试 FrontierMath 的客观性受到质疑。
1/20/2025 7:47:24 AM
故渊

是时候停止炒作「o3是AGI」了!背后15人安全对齐团队大盘点

我们或许可以称o3是「更高级的推理AI」,而远不是AGI。 昨天凌晨,OpenAI 连续 12 天发布会终于落下了帷幕,并甩出了最强大的推理模型 o3 系列! 当然,用户现在想要体验 o3 或者 o3-mini,需要申请并等待数周。
12/22/2024 4:39:00 PM
机器之心

o3 压台登场:OpenAI 卷动推理 AI 模型风云,迈向 AGI 新巅峰

“12 Days of OpenAI”活动已拉上帷幕,OpenAI 的 o3 系列大模型压台登场,官方称在某些场景下,其推理能力非常接近通用人工智能(AGI)。
12/21/2024 7:05:41 AM
故渊
  • 1