o1

斯坦福揭秘 o1-preview 软肋：数学竞赛题稍作修改，准确率骤降 30%

斯坦福大学最近的一项研究发现，尽管 o1-preview 在数学、代码等领域能力逆天，但只要对数学竞赛的题目稍修改，模型解答的准确率竟会立刻下降 30%。

1/31/2025 4:59:47 PM

清源

OpenAI o1 推理模型免费用，微软 Copilot 开放“深度思考”AI 功能

Microsoft AI 公司首席执行官穆斯塔法・苏莱曼（Mustafa Suleyman）昨日（1 月 30 日）在 X 平台发布推文，宣布所有 Microsoft Copilot 用户现在都可以免费使用 OpenAI 的 o1 推理模型。

1/31/2025 10:13:22 AM

故渊

有道子曰推理模型“子曰-o1”发布即开源，14B小参数复现OpenAI o1强推理效果

2025开年，AI行业掀起大模型“推理潮”，自OpenAI发布o1后，各式推理模型不断涌现，模型的高阶推理能力迎来爆发增强，其应用价值也愈发获得业界的广泛关注。 1月22日，网易有道正式推出国内首个输出分步式讲解的推理模型“子曰-o1”。作为14B轻量级单模型，子曰-o1支持在消费级显卡上进行部署，采用思维链技术，能够提供细致解题过程，以强逻辑和推理能力，实现更高的解题准确性，并提供中文逻辑推理。

1/22/2025 11:32:00 AM

新闻助手

o1不是聊天模型？24小时热度暴涨，奥特曼、Brockman在线围观

不要再将 o1 当做聊天模型了。如何定位 o1 模型？你是否常常将其当做一个聊天模型来使用。

1/13/2025 12:30:58 PM

沃顿商学院教授发文解析 o1：能力仍有短板，「人机协同智能」或成 AGI 最重要难题

OpenAI 最近奉上了满血版的 o1 Pro，这一全新系列的模型究竟有多强？它能否指明 AI 发展的未来方向？沃顿商学院教授在 3 个月的前一篇博客就中给出了「神预言」一般的答案。

12/18/2024 3:03:03 PM

清源

OpenAI的12天王炸计划：技术狂欢还是资本闹剧？

大家好，我是下李哥。最近硅谷又炸锅了！ OpenAI这波操作，简直是要把全网AI玩家都整得神经兮兮的。

12/9/2024 9:37:46 AM

小李哥编程

OpenAI满血o1深夜炸场！10秒搞定博士级难题！奥特曼重申：AI没有墙！新Pro会员1450元/月，创史上最贵AI订阅

出品 | 51CTO技术栈（微信号：blog51cto）满血o1这不就来了吗？！ OpenAI的“圣诞大礼包”第一天就众望所归！

12/6/2024 8:49:59 AM

OpenAI 活动首日：完整版 o1 推理 AI 模型登场、月费 200 美元的 ChatGPT Pro 订阅亮相

OpenAI 启动了为期 12 天的“shipmas”新品发布周期，将推出一系列新功能、新产品以及相关演示。在本次活动首日，OpenAI 推出了完整版 o1 模型，并新增了月费为 200 美元的 ChatGPT Pro 订阅。

12/6/2024 2:41:05 AM

故渊

DeepSeek首发国产类o1模型！人人可以免费使用！

20日晚8点，DeepSeek在自己官方公众号上放出了一个大杀器：全新自研的DeepSeek-R1-Lite 预览版正式上线。据介绍，DeepSeek R1 系列模型使用强化学习训练，推理过程包含大量反思和验证，思维链长度可达数万字。该系列模型在数学、代码以及各种复杂逻辑推理任务上，取得了媲美 o1-preview 的推理效果，并为用户展现了 o1 没有公开的完整思考过程。

11/25/2024 5:23:10 PM

OpenAI o1太贵？那就自己做一个！纯提示方法让普通LLM进化出复杂推理能力

九月份，OpenAI o1正式登场。作为新一代的老大哥，o1系列专注于复杂的推理任务，一经推出也是直接屠榜了大模型竞技场。图片在下面这些难度较大的数学、编码、科学等任务中，o1不仅比GPT-4o强上一大截，甚至比人类专家还要凶猛。

11/7/2024 10:59:36 PM

新智元

OpenAI的o1是万金油吗？专家为思维链“泼冷水”！研究发现：这三种任务不适合让AI“想太多”，o1准确率直降36.3%！

出品 | 51CTO技术栈（微信号：blog51cto）别想太多！这句劝解有一定道理，在很多问题上过度思考反而会适得其反！ AI是否也会这样呢？

11/7/2024 1:16:26 PM

ChatGPT 幕后大佬、o1 推理模型作者 Luke Metz 官宣从 OpenAI 离职

就在刚刚，又一位元老级人物官宣离职 OpenAI 了。o1 推理模型贡献者之一 Luke Metz 发文称，「我即将离开 OpenAI，结束这段超过两年的奇妙旅程」。与此同时，Information 爆料称，此前出走的后训练团队负责人 Barret Zoph，现有了新的继任者 ——William (Liam) Fedus。他也是 o1 模型的七大负责人之一。值得一提的是，今天的两位主角此前都曾是谷歌的研究员；在来到 OpenAI 之后，共同参与了 ChatGPT、GPT-4 和 o1 的研发。o1 七大 Leade

10/10/2024 1:12:01 PM

汪淼

OpenAI o1 在医学领域的初步研究，我们离 AI 医生更近了吗？

编辑 | 紫罗大语言模型 (LLM) 在各个领域和任务中都表现出了卓越的能力，突破了我们在学习和认知方面的知识界限。最新模型 OpenAI 的 o1 脱颖而出，成为第一个使用思维链 (CoT) 技术和强化学习的 LLM。虽然 o1 在一般任务中表现良好，但它在医学等专业领域的表现仍然未知。目前医学 LLM 的基准通常集中在一定范围内，例如知识、推理或安全，这使得在复杂的医学任务中对这些模型进行全面评估变得复杂。来自加州大学圣克鲁斯分校、爱丁堡大学和美国国立卫生研究院的研究人员评估了 OpenAI 的 o1 模型在医

9/27/2024 5:36:00 PM

ScienceAI

OpenAI o1 AI 模型 PlanBench 规划能力实测：准确率 97.8%，远超 LLaMA 3.1 405B 创造的 62.6% 纪录

来自亚利桑那州立大学的科研团队利用 PlanBench 基准，测试了 OpenAI o1 模型的规划能力。研究结果表明 o1 模型取得了长足的进步，但仍然存在很大的局限性。PlanBench 基准简介PlanBench 开发于 2022 年，用于评估人工智能系统的规划能力，包括 600 个来自 Blocksworld 领域的任务，其中积木必须按照特定顺序堆叠。OpenAI o1 模型成绩在 Blocksworld 任务中，OpenAI 的 o1 模型准确率达到 97.8%，大大超过了之前的最佳语言模型 LLaMA

9/25/2024 12:20:21 PM

故渊

OpenAI 首款具备“推理”能力模型 o1 现已向企业 / 教育用户开放，每周最多使用 50 次

OpenAI 公司旗下首款具备“推理”能力的模型 o1 和 o1-mini 现已向企业版（Enterprise）和教育版（Edu）用户开放访问权限，用户每周最多可输入 50 条消息。据介绍，OpenAI o1 系列模型具有更高的理解能力，与传统模型不同，o1 系列模型在回答问题之前会进行深度思考，生成内在的思维链后再给出答案，因此系列模型能够处理比之前模型更复杂的任务，特别擅长解决科学、编程和数学领域的难题。OpenAI 指出，尽管目前 GPT-4o 仍是大多数任务的最佳选择，但 o1 系列在处理复杂、问题解决导向

9/22/2024 3:07:06 PM

漾仔

OpenAI o1 全方位 SOTA 登顶 lmsys 排行榜：数学能力碾压 Claude 和谷歌 Gemini 模型，o1-mini 并列第一

o1 模型发布 1 周，lmsys 的 6k 投票就将 o1-preview 送上了排行榜榜首。同时，为了满足大家对模型「IOI 金牌水平」的好奇心，OpenAI 放出了 o1 测评时提交的所有代码。万众瞩目的最新模型 OpenAI o1，终于迎来了 lmsys 竞技场的测评结果。不出意外，o1-preview 在各种领域绝对登顶，超过了最新版的 GPT-4o，在数学、困难提示和编码领域表现出色；而 o1-mini 虽然名字中自带「mini」，但也和最新版的 GPT-4o 并列综合排名第二，困难提示、编码、数学

9/20/2024 1:29:05 PM

问舟

OpenAI 再成“榜一大哥”：o1-preview AI 模型更轻松驾驭数学、编程等任务

科技媒体 The Decoder 昨日（9 月 19 日）发布博文，报道称在聊天机器人竞技场（Chatbot Arena）上，OpenAI 的新人工智能模型 o1-preview 和 o1-mini 问鼎榜首。聊天机器人竞技场简介聊天机器人竞技场是一个比较人工智能模型的平台，它利用 6000 多个社区评分对新的 OpenAI 系统进行了评估。结果结果显示，o1-preview 和 o1-mini 尤其在数学任务、复杂提示和编程方面表现出色。Lmsys 提供的数学模型优势图表清楚地显示，o1-preview 和 o1

9/20/2024 10:29:14 AM

故渊

阿尔特曼称 o1 仅仅是“推理模型的 GPT-2”，黄仁勋表示“给你加速 50 倍”

AI 界最有影响力的两个人，同时出现在一场活动：OpenAI CEO 阿尔特曼，暗示了 o1 满血版将在接下来几个月发布。英伟达创始人黄仁勋，则表示新一代 Blackwell 架构 GPU 能给 o1 推理提速 50 倍。阿尔特曼把 o1 在推理模型里的地位比作语言模型中的 GPT-2 阶段。几年后人们将看到“推理模型的 GPT-4”，不过最近几个月就会有重大改进，新范式的进步曲线非常陡峭。L2“推理者”与 L1“聊天机器人”非常不同，大家还没找到该怎么用这些模型，我们也没决定该为 App 继续添加什么功能。不过最

9/19/2024 4:41:34 PM

清源

资讯热榜

本地部署DeepSeek+DiFy平台构建智能体应用韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 GPT-4o提效神器！8种王炸用法让小白秒变大神（附提示词模版）斯坦福 AI 指数报告发布：2024年美国 AI 私人投资约为中国的 12 倍、GPT3.5 级别模型推理成本下降 280 倍如何用AI做好情感化设计？来看大厂的实战案例！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练