GPT
OpenAI o1 在医学领域的初步研究,我们离 AI 医生更近了吗?
编辑 | 紫罗大语言模型 (LLM) 在各个领域和任务中都表现出了卓越的能力,突破了我们在学习和认知方面的知识界限。最新模型 OpenAI 的 o1 脱颖而出,成为第一个使用思维链 (CoT) 技术和强化学习的 LLM。虽然 o1 在一般任务中表现良好,但它在医学等专业领域的表现仍然未知。目前医学 LLM 的基准通常集中在一定范围内,例如知识、推理或安全,这使得在复杂的医学任务中对这些模型进行全面评估变得复杂。来自加州大学圣克鲁斯分校、爱丁堡大学和美国国立卫生研究院的研究人员评估了 OpenAI 的 o1 模型在医
GPT-4o 能玩《黑神话:悟空》:精英怪胜率超人类,无强化学习纯大模型方案
AI 玩黑神话,第一个精英怪牯护院轻松拿捏啊。有方向感,视角也没有问题。躲闪劈棍很丝滑。甚至在打鸦香客和牯护院时,AI 的胜率已经超过人类。而且是完全使用大模型玩,没有使用强化学习。阿里巴巴的研究人员们提出了一个新型 VARP(视觉动作角色扮演)智能体框架。它能直接将游戏截图作为输入,通过视觉语言模型推理,最终生成 Python 代码形式的动作,以此来操作游戏。以玩《黑神话・悟空》为例,该智能体在 90% 简单和中等水平战斗场景中取胜。GPT-4o、Claude 3.5 都来迎战研究人员以《黑神话・悟空》为研究平台
OpenAI 再成“榜一大哥”:o1-preview AI 模型更轻松驾驭数学、编程等任务
科技媒体 The Decoder 昨日(9 月 19 日)发布博文,报道称在聊天机器人竞技场(Chatbot Arena)上,OpenAI 的新人工智能模型 o1-preview 和 o1-mini 问鼎榜首。聊天机器人竞技场简介聊天机器人竞技场是一个比较人工智能模型的平台,它利用 6000 多个社区评分对新的 OpenAI 系统进行了评估。结果结果显示,o1-preview 和 o1-mini 尤其在数学任务、复杂提示和编程方面表现出色。Lmsys 提供的数学模型优势图表清楚地显示,o1-preview 和 o1
研究称生成式 AI 耗水量巨大:使用 GPT-4 生成 100 字文本需消耗 3 瓶水
据《华盛顿邮报》报道,美国加州大学河滨分校的一项新研究揭示了生成式 AI 的惊人环境成本,尤其是其对水资源的消耗。研究发现,即使只是生成文本,AI 也需要大量的水来冷却服务器。再加上其对电网的巨大压力,进一步凸显了 AI 发展的环境挑战。图源 Pexels研究指出,AI 的用水量因州和数据中心位置的不同而有所差异,但总体而言,水耗与电费成反比。AI在线注意到,得州的水耗最低,生成一封 100 字的电子邮件仅需 235 毫升水,而华盛顿则高达 1,408 毫升,相当于三瓶 16.9 盎司的矿泉水。此外,数据中心本身就
阿尔特曼称 o1 仅仅是“推理模型的 GPT-2”,黄仁勋表示“给你加速 50 倍”
AI 界最有影响力的两个人,同时出现在一场活动:OpenAI CEO 阿尔特曼,暗示了 o1 满血版将在接下来几个月发布。英伟达创始人黄仁勋,则表示新一代 Blackwell 架构 GPU 能给 o1 推理提速 50 倍。阿尔特曼把 o1 在推理模型里的地位比作语言模型中的 GPT-2 阶段。几年后人们将看到“推理模型的 GPT-4”,不过最近几个月就会有重大改进,新范式的进步曲线非常陡峭。L2“推理者”与 L1“聊天机器人”非常不同,大家还没找到该怎么用这些模型,我们也没决定该为 App 继续添加什么功能。不过最
新代码暗示 OpenAI 本月 24 日推出 ChatGPT AI 高级语音模式
科技媒体 testingcatalog 昨日(9 月 18 日)发布博文,报道称 OpenAI 公司可能会在 9 月 24 日进一步推广 ChatGPT 的高级语音模式,甚至可能是直接正式发布。OpenAI 于今年 7 月宣布向一小部分 ChatGPT Plus 用户开放 ChatGPT 的高级语音模式,让用户首次获得 GPT-4o 的超现实音频响应。AI在线援引该媒体报道,OpenAI 公司已更新高级语音模式 FAQ 页面,在代码中被发现“hasSeenAdvancedVoice/2024-09-24”的字符串,
陶哲轩提前实测满血版 OpenAI o1:能当研究生使唤
原来早在 8 月份,陶哲轩就已经用上了 OpenAI o1。还是现在大家都用不上的满血版本(眼泪不争气地从嘴角流出来)。提前批大佬是怎么玩最新天花板的呢?他向 o1 模型提出一个措辞模糊的数学问题,发现它竟然能成功识别出克莱姆定理。而且答案是“完全令人满意的”那种。当然,陶哲轩还做了一些其它测试,测下来总体体验就是:比以前的模型更牛,多堆点提示词表现还不错,但仍然会犯不小的错误,也没有产生啥自己的思想。陶哲轩是这样形容的:这种感觉,就像给一个平庸无奇但又有点小能力的研究生提供建议。不过,这已经比以前的模型有所改进,
o1 模型完整思维链成 OpenAI 头号禁忌,问多了等着封号吧
警告!不要在 ChatGPT 里问最新 o1 模型是怎么思考的 ——只要尝试几次,OpenAI 就会发邮件威胁撤销你的使用资格。请停止此活动,确保您使用 ChatGPT 时符合我们的使用条款。违反此条款的行为可能导致失去 OpenAI o1 访问权限。大模型新范式 o1 横空出世不到 24 小时,就已经有不少用户反馈收到这封警告邮件,引起众人不满。有人反馈只要提示词里带“reasoning trace”、“show your chain of thought”等关键词就会收到警告。甚至完全避免出现关键词,使用其他手
OpenAI o1 模型登场:开启 AI 通用复杂推理新篇章,国际奥数正确率 83%
感谢OpenAI 传闻中的“草莓”(Strawberry)AI 模型现已面世,正式名称为“o1”,是该公司首款具备“推理”能力的模型。o1 和 o1-miniOpenAI 表示对该模型进行特殊训练,能够比人类更快地回答更复杂的问题。与之同时发布的还有 o1-mini,一个更小、成本更低的版本。OpenAI 表示 o1 模型的发布,是其迈向类人 AI 宏伟目标的关键一步。AI在线注:o1 模型目前处于“预览”阶段,官方强调该模型相关开发尚处于初期阶段,相比较 GPT-4o 模型,使用成本更高且速度更慢,但在编写代码和
刚刚,GPT-4o关键人物离职创业!曾在OpenAI最早提出构建「Her」
OpenAI 最早提出构建「Her」的那个人,刚刚宣布离职创业了。今年 5 月份,OpenAI 发布了震惊世界的 GPT-4o。这个模型可以跨越文本、视觉和音频,以一种非常自然的形式和人类语音对话,延迟低到与人类在对话中的响应时间相似。而且,它允许用户随时打断,并能感知和回应用户的情绪。因此,该模型发布后,很多人说科幻电影《Her》中的场景照进了现实。此次离职的 Alexis Conneau 就是 GPT-4o 项目的关键人物之一。离职前,他是 OpenAI 音频 AGI 研究负责人,也是 OpenAI 最早提出
从零到AI高手:用OpenAI API极速打造智能应用!
像我之前也提到过,AI 的发展愈发迅猛这是无可置疑的,但很多人知道 AI 好,却不会引进实际的业务中去。无论是市面上常见的文本生成工具,还是智能 Copilot,这些应用都展示了 AI 的强大能力。面对这些新技术,许多设计师可能会好奇:如何才能将这些能力运用到自己的项目中?其实你能用且会用 AI 工具做端外提效已经超过 80%的人了,但如何将能力接入端内?实实在在的给项目提效,而非个人。有些底层逻辑你还是要懂的。
OpenAI 的 GPT 模型是当前自然语言处理领域的核心技术之一。它不仅功能强大,而且极具灵活性,能
OpenAI 今年启动 GPT Next 计划:AI 性能百倍级跃升,Orion 有望接棒 GPT-4
OpenAI Japan 出席 KDDI 峰会,介绍了公司即将推出的下一代 AI 模型,并宣布将在 2024 年启动 GPT Next 计划,有望在 AI 功能上实现大幅飞跃。图源:itmediaOpenAI Japan 首席执行官长崎忠雄(Tadao Nagasaki)表示,虽然 GPT-3 和 GPT-4 的性能比较接近,但 GPT Next 预计会有更大的飞跃,性能将提高 100 倍。长崎忠雄于 2024 年 4 月成为 OpenAI Japan 的掌舵者,他在会上强调相比较传统软件,AI 技术正以指数级速度
OpenAI 的 GPT-4 变身考证能手:无额外训练通过日本理疗师考试,正确率 73.4%
一项新的同行评审研究表明,OpenAI 的 GPT-4 大语言模型无需任何额外训练,即可通过日本国家理疗考试。最新发表在《Cureus》杂志上的新研究,测试了 GPT-4 的文字和视觉技能。AI在线注:日本国家物理理疗师考试包括 160 道综合题和 40 道实践题,测试记忆、理解、应用、分析和评估能力。研究人员在 GPT-4 中输入了 1000 个问题,并将答案对比了官方解决方案。GPT-4 通过了所有五个测试部分,正确回答了 73.4% 的问题。不过,人工智能在处理技术性问题和包含图片或表格的问题时显得有些吃力。
用户反馈 Claude AI 聊天机器人愈发“慵懒”,官方回应未做调整
科技媒体 The Decoder 昨日(8 月 28 日)发布博文,报道称 Anthropic 公司旗下的 Clause AI 聊天机器人变得愈发“慵懒”了,不再像此前那样能干了。网友 NextgenAITrading 于 11 天前在 Reddit 社区发帖,帖子标题为《这绝不是你的幻觉!Claude 最近变得越来越懒了》,目前该帖子已收获 485 个赞,共有 290 条跟帖回复。网友称 Claude 很容易忘记任务,在基础编程方面也很吃力,最终导致其选择取消订阅。Anthropic 公司的亚历克斯・艾伯特(Al
安卓 / macOS 版 ChatGPT AI 应用现支持“@”,可无缝切换不同 GPT 模型
科技媒体 testingcatalog 昨日(8 月 28 日)发布博文,报道称安卓版和 macOS 版 ChatGPT 现支持 Mentions 功能,用户在聊天对话中使用“@”字符来调用不同的定制 GPT 模型。在安卓版 ChatGPT 应用中,用户输入“@”符号之后,会弹出一个窗口,让用户选择不同的 GPT,在保持聊天上下文的时候方便用户无缝切换。苹果 macOS 平台最新版 ChatGPT 也已上线该功能,但目前 iOS 平台 ChatGPT 仍未上线。AI在线注:Mentions 是 ChatGPT 的一
OpenAI GPT-4 AI 模型潜力挖掘:高精度建模基础蛋白质结构
科技媒体 The Decoder 昨日(8 月 21 日)发布博文,报道称罗格斯大学的一项研究表明,OpenAI 公司的 GPT-4 语言模型能高精度模拟简单的氨基酸和蛋白质结构。相关研究成果发表在《Scientific Reports》上,该科研团队使用 GPT-4 AI 语言模型,探索其在基本结构生物学任务中的表现,结果发现该 AI 模型可以准确预测分子结构。科学家们要求 GPT-4 建立 20 种标准氨基酸的三维结构模型,在反馈结果中准确地预测了原子组成、键长和角度,不过 GPT-4 在模拟环状结构和立体化学
OpenAI 开放 GPT-4o 定制功能,企业可更轻松打造专属 AI 助手
OpenAI 推出了一项新功能,允许企业客户使用自己的数据来定制其最强大的 AI 模型 GPT-4o。此举旨在应对日益激烈的 AI 企业应用竞争,并满足企业对 AI 投资回报的更高要求。所谓定制,即业界所称的“微调(fine-tuning)”。通过微调,现有 AI 模型可以针对特定任务或领域进行优化。例如,一家滑板公司可以微调 AI 模型,使其成为能够回答有关轮子和滑板护理问题的客服聊天机器人。此前,OpenAI 仅允许用户微调其较小的模型,如 GPT-4o mini。而此次开放 GPT-4o 和 GPT-4 的微
Llama 8B 搜索 100 次超越 GPT-4o,推理 + 搜索即可提升性能
最新论文表明,LLM 等生成模型可以通过搜索来扩展,并实现非常显著的性能提升。另一个复现实验也发现,让参数量仅 8B 的 Llama 3.1 模型搜索 100 次,即可在 Python 代码生成任务上达到 GPT-4o 同等水平。强化学习先驱、加拿大阿尔伯塔大学 CS 系教授 Rich Sutton 曾在 2019 年写下一篇名为《The Bitter Lesson》的博文,成为 AI 领域的经典论述之一。甚至,Rich Sutton 在字里行间体现出的直觉已经颇有 Scaling Law 的意味。原文地址: /