o1

沃顿商学院教授发文解析 o1:能力仍有短板,「人机协同智能」或成 AGI 最重要难题

OpenAI 最近奉上了满血版的 o1 Pro,这一全新系列的模型究竟有多强?它能否指明 AI 发展的未来方向?沃顿商学院教授在 3 个月的前一篇博客就中给出了「神预言」一般的答案。

OpenAI的12天王炸计划:技术狂欢还是资本闹剧?

大家好,我是下李哥。 最近硅谷又炸锅了! OpenAI这波操作,简直是要把全网AI玩家都整得神经兮兮的。

OpenAI满血o1深夜炸场!10秒搞定博士级难题!奥特曼重申:AI没有墙!新Pro会员1450元/月,创史上最贵AI订阅

出品 | 51CTO技术栈(微信号:blog51cto)满血o1这不就来了吗? ! OpenAI的“圣诞大礼包”第一天就众望所归!

OpenAI 活动首日:完整版 o1 推理 AI 模型登场、月费 200 美元的 ChatGPT Pro 订阅亮相

OpenAI 启动了为期 12 天的“shipmas”新品发布周期,将推出一系列新功能、新产品以及相关演示。在本次活动首日,OpenAI 推出了完整版 o1 模型,并新增了月费为 200 美元的 ChatGPT Pro 订阅。

OpenAI o1太贵?那就自己做一个!纯提示方法让普通LLM进化出复杂推理能力

九月份,OpenAI o1正式登场。 作为新一代的老大哥,o1系列专注于复杂的推理任务,一经推出也是直接屠榜了大模型竞技场。 图片在下面这些难度较大的数学、编码、科学等任务中,o1不仅比GPT-4o强上一大截,甚至比人类专家还要凶猛。

OpenAI的o1是万金油吗?专家为思维链“泼冷水”!研究发现:这三种任务不适合让AI“想太多”,o1准确率直降36.3%!

出品 | 51CTO技术栈(微信号:blog51cto)别想太多! 这句劝解有一定道理,在很多问题上过度思考反而会适得其反! AI是否也会这样呢?

ChatGPT 幕后大佬、o1 推理模型作者 Luke Metz 官宣从 OpenAI 离职

就在刚刚,又一位元老级人物官宣离职 OpenAI 了。o1 推理模型贡献者之一 Luke Metz 发文称,「我即将离开 OpenAI,结束这段超过两年的奇妙旅程」。与此同时,Information 爆料称,此前出走的后训练团队负责人 Barret Zoph,现有了新的继任者 ——William (Liam) Fedus。他也是 o1 模型的七大负责人之一。值得一提的是,今天的两位主角此前都曾是谷歌的研究员;在来到 OpenAI 之后,共同参与了 ChatGPT、GPT-4 和 o1 的研发。o1 七大 Leade

OpenAI o1 在医学领域的初步研究,我们离 AI 医生更近了吗?

编辑 | 紫罗大语言模型 (LLM) 在各个领域和任务中都表现出了卓越的能力,突破了我们在学习和认知方面的知识界限。最新模型 OpenAI 的 o1 脱颖而出,成为第一个使用思维链 (CoT) 技术和强化学习的 LLM。虽然 o1 在一般任务中表现良好,但它在医学等专业领域的表现仍然未知。目前医学 LLM 的基准通常集中在一定范围内,例如知识、推理或安全,这使得在复杂的医学任务中对这些模型进行全面评估变得复杂。来自加州大学圣克鲁斯分校、爱丁堡大学和美国国立卫生研究院的研究人员评估了 OpenAI 的 o1 模型在医

OpenAI o1 AI 模型 PlanBench 规划能力实测:准确率 97.8%,远超 LLaMA 3.1 405B 创造的 62.6% 纪录

来自亚利桑那州立大学的科研团队利用 PlanBench 基准,测试了 OpenAI o1 模型的规划能力。研究结果表明 o1 模型取得了长足的进步,但仍然存在很大的局限性。PlanBench 基准简介PlanBench 开发于 2022 年,用于评估人工智能系统的规划能力,包括 600 个来自 Blocksworld 领域的任务,其中积木必须按照特定顺序堆叠。OpenAI o1 模型成绩在 Blocksworld 任务中,OpenAI 的 o1 模型准确率达到 97.8%,大大超过了之前的最佳语言模型 LLaMA

OpenAI 首款具备“推理”能力模型 o1 现已向企业 / 教育用户开放,每周最多使用 50 次

OpenAI 公司旗下首款具备“推理”能力的模型 o1 和 o1-mini 现已向企业版(Enterprise)和教育版(Edu)用户开放访问权限,用户每周最多可输入 50 条消息。据介绍,OpenAI o1 系列模型具有更高的理解能力,与传统模型不同,o1 系列模型在回答问题之前会进行深度思考,生成内在的思维链后再给出答案,因此系列模型能够处理比之前模型更复杂的任务,特别擅长解决科学、编程和数学领域的难题。OpenAI 指出,尽管目前 GPT-4o 仍是大多数任务的最佳选择,但 o1 系列在处理复杂、问题解决导向

OpenAI o1 全方位 SOTA 登顶 lmsys 排行榜:数学能力碾压 Claude 和谷歌 Gemini 模型,o1-mini 并列第一

o1 模型发布 1 周,lmsys 的 6k 投票就将 o1-preview 送上了排行榜榜首。同时,为了满足大家对模型「IOI 金牌水平」的好奇心,OpenAI 放出了 o1 测评时提交的所有代码。万众瞩目的最新模型 OpenAI o1,终于迎来了 lmsys 竞技场的测评结果。不出意外,o1-preview 在各种领域绝对登顶,超过了最新版的 GPT-4o,在数学、困难提示和编码领域表现出色;而 o1-mini 虽然名字中自带「mini」,但也和最新版的 GPT-4o 并列综合排名第二,困难提示、编码、数学

OpenAI 再成“榜一大哥”:o1-preview AI 模型更轻松驾驭数学、编程等任务

科技媒体 The Decoder 昨日(9 月 19 日)发布博文,报道称在聊天机器人竞技场(Chatbot Arena)上,OpenAI 的新人工智能模型 o1-preview 和 o1-mini 问鼎榜首。聊天机器人竞技场简介聊天机器人竞技场是一个比较人工智能模型的平台,它利用 6000 多个社区评分对新的 OpenAI 系统进行了评估。结果结果显示,o1-preview 和 o1-mini 尤其在数学任务、复杂提示和编程方面表现出色。Lmsys 提供的数学模型优势图表清楚地显示,o1-preview 和 o1

阿尔特曼称 o1 仅仅是“推理模型的 GPT-2”,黄仁勋表示“给你加速 50 倍”

AI 界最有影响力的两个人,同时出现在一场活动:OpenAI CEO 阿尔特曼,暗示了 o1 满血版将在接下来几个月发布。英伟达创始人黄仁勋,则表示新一代 Blackwell 架构 GPU 能给 o1 推理提速 50 倍。阿尔特曼把 o1 在推理模型里的地位比作语言模型中的 GPT-2 阶段。几年后人们将看到“推理模型的 GPT-4”,不过最近几个月就会有重大改进,新范式的进步曲线非常陡峭。L2“推理者”与 L1“聊天机器人”非常不同,大家还没找到该怎么用这些模型,我们也没决定该为 App 继续添加什么功能。不过最

陶哲轩提前实测满血版 OpenAI o1:能当研究生使唤

原来早在 8 月份,陶哲轩就已经用上了 OpenAI o1。还是现在大家都用不上的满血版本(眼泪不争气地从嘴角流出来)。提前批大佬是怎么玩最新天花板的呢?他向 o1 模型提出一个措辞模糊的数学问题,发现它竟然能成功识别出克莱姆定理。而且答案是“完全令人满意的”那种。当然,陶哲轩还做了一些其它测试,测下来总体体验就是:比以前的模型更牛,多堆点提示词表现还不错,但仍然会犯不小的错误,也没有产生啥自己的思想。陶哲轩是这样形容的:这种感觉,就像给一个平庸无奇但又有点小能力的研究生提供建议。不过,这已经比以前的模型有所改进,

OpenAI o1 非 GPT-4o 直接进化,在成本与性能上妥协

9 月 14 日消息,OpenAI 已经推出了新模型 OpenAI o1 的两大变体 ——o1-preview 与 o1-mini,这两款模型都有许多值得深入探讨的内容。人工智能专家西蒙・威利森(Simon Willison)专门发文,深入剖析了这些新模型背后的设计理念与实现细节,揭示了它们在技术上的独特优势与不足。威利森表示,o1 并不是简单的 GPT-4o 直接升级版,而是在强化“推理”能力的同时,做出了成本与性能上的权衡。1. 训练思维链OpenAI 的声明是一个很好的起点:“我们研发了一系列新型人工智能模型

o1 模型完整思维链成 OpenAI 头号禁忌,问多了等着封号吧

警告!不要在 ChatGPT 里问最新 o1 模型是怎么思考的 ——只要尝试几次,OpenAI 就会发邮件威胁撤销你的使用资格。请停止此活动,确保您使用 ChatGPT 时符合我们的使用条款。违反此条款的行为可能导致失去 OpenAI o1 访问权限。大模型新范式 o1 横空出世不到 24 小时,就已经有不少用户反馈收到这封警告邮件,引起众人不满。有人反馈只要提示词里带“reasoning trace”、“show your chain of thought”等关键词就会收到警告。甚至完全避免出现关键词,使用其他手

因类人通用推理、可辅助制作生物武器等因素,OpenAI o1 AI 模型归类为“中等风险”

科技媒体 The Decoder 昨日(9 月 13 日)发布博文,报道称在 OpenAI 自家的“防备框架”(Preparedness Framework)下,将最新发布的 o1 AI 模型归类为“中等风险”(medium risk)。防备框架简介AI在线曾于 2023 年 12 月报道,OpenAI 成立了新的“防备”(Preparedness)团队,并提出“防备框架”指导方针。防备团队将反复评估 OpenAI 最先进、尚未发布的 AI 模型,根据不同类型的感知风险评为四个等级,从低到高依次是“低”、“中”、“

GPT未竟的革命,由o1接棒:或是LLM研究最重要的发现

天下武功唯快不破,但 OpenAI 不走寻常路,新出的 o1 系列宣告天下:我们更慢,但更强了。 o1 要花更多的时间思考问题,再做出反应,但在复杂推理层面直接窜了几个档位。 在国际数学奥林匹克 (IMO) 资格考试中,GPT-4o 仅正确解决了 13% 的问题,而 o1 得分为 83%。