您正在搜索 gpt-5-yao-deng-dao-ming-nian-openai-ceo-jin-nian-wu-fa-tong-shi-fa-bu-nei-me-duo-dong-xi

阿尔特曼称 o1 仅仅是“推理模型的 GPT-2”，黄仁勋表示“给你加速 50 倍”

AI 界最有影响力的两个人，同时出现在一场活动：OpenAI CEO 阿尔特曼，暗示了 o1 满血版将在接下来几个月发布。英伟达创始人黄仁勋，则表示新一代 Blackwell 架构 GPU 能给 o1 推理提速 50 倍。阿尔特曼把 o1 在推理模型里的地位比作语言模型中的 GPT-2 阶段。几年后人们将看到“推理模型的 GPT-4”，不过最近几个月就会有重大改进，新范式的进步曲线非常陡峭。L2“推理者”与 L1“聊天机器人”非常不同，大家还没找到该怎么用这些模型，我们也没决定该为 App 继续添加什么功能。不过最

陶哲轩提前实测满血版 OpenAI o1：能当研究生使唤

原来早在 8 月份，陶哲轩就已经用上了 OpenAI o1。还是现在大家都用不上的满血版本（眼泪不争气地从嘴角流出来）。提前批大佬是怎么玩最新天花板的呢？他向 o1 模型提出一个措辞模糊的数学问题，发现它竟然能成功识别出克莱姆定理。而且答案是“完全令人满意的”那种。当然，陶哲轩还做了一些其它测试，测下来总体体验就是：比以前的模型更牛，多堆点提示词表现还不错，但仍然会犯不小的错误，也没有产生啥自己的思想。陶哲轩是这样形容的：这种感觉，就像给一个平庸无奇但又有点小能力的研究生提供建议。不过，这已经比以前的模型有所改进，

OpenAI 的 GPT-4 变身考证能手：无额外训练通过日本理疗师考试，正确率 73.4%

一项新的同行评审研究表明，OpenAI 的 GPT-4 大语言模型无需任何额外训练，即可通过日本国家理疗考试。最新发表在《Cureus》杂志上的新研究，测试了 GPT-4 的文字和视觉技能。AI在线注：日本国家物理理疗师考试包括 160 道综合题和 40 道实践题，测试记忆、理解、应用、分析和评估能力。研究人员在 GPT-4 中输入了 1000 个问题，并将答案对比了官方解决方案。GPT-4 通过了所有五个测试部分，正确回答了 73.4% 的问题。不过，人工智能在处理技术性问题和包含图片或表格的问题时显得有些吃力。

安卓 / macOS 版 ChatGPT AI 应用现支持“@”，可无缝切换不同 GPT 模型

科技媒体 testingcatalog 昨日（8 月 28 日）发布博文，报道称安卓版和 macOS 版 ChatGPT 现支持 Mentions 功能，用户在聊天对话中使用“@”字符来调用不同的定制 GPT 模型。在安卓版 ChatGPT 应用中，用户输入“@”符号之后，会弹出一个窗口，让用户选择不同的 GPT，在保持聊天上下文的时候方便用户无缝切换。苹果 macOS 平台最新版 ChatGPT 也已上线该功能，但目前 iOS 平台 ChatGPT 仍未上线。AI在线注：Mentions 是 ChatGPT 的一

OpenAI GPT-4 AI 模型潜力挖掘：高精度建模基础蛋白质结构

科技媒体 The Decoder 昨日（8 月 21 日）发布博文，报道称罗格斯大学的一项研究表明，OpenAI 公司的 GPT-4 语言模型能高精度模拟简单的氨基酸和蛋白质结构。相关研究成果发表在《Scientific Reports》上，该科研团队使用 GPT-4 AI 语言模型，探索其在基本结构生物学任务中的表现，结果发现该 AI 模型可以准确预测分子结构。科学家们要求 GPT-4 建立 20 种标准氨基酸的三维结构模型，在反馈结果中准确地预测了原子组成、键长和角度，不过 GPT-4 在模拟环状结构和立体化学

Llama 8B 搜索 100 次超越 GPT-4o，推理 + 搜索即可提升性能

最新论文表明，LLM 等生成模型可以通过搜索来扩展，并实现非常显著的性能提升。另一个复现实验也发现，让参数量仅 8B 的 Llama 3.1 模型搜索 100 次，即可在 Python 代码生成任务上达到 GPT-4o 同等水平。强化学习先驱、加拿大阿尔伯塔大学 CS 系教授 Rich Sutton 曾在 2019 年写下一篇名为《The Bitter Lesson》的博文，成为 AI 领域的经典论述之一。甚至，Rich Sutton 在字里行间体现出的直觉已经颇有 Scaling Law 的意味。原文地址： /

面壁智能开源 MiniCPM-V 2.6 模型：号称端侧 AI 多模态能力对标 GPT-4V，6G 内存可用

面壁智能昨日开源了 MiniCPM-V 2.6 模型，官方表示将端侧 AI 多模态能力拉升至全面对标 GPT-4V 水平。官方称 MiniCPM-V 2.6 模型仅 8B 参数，取得 20B 以下单图、多图、视频理解 3 SOTA 成绩，有以下特点：“三合一最强”端侧多模态：首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越 GPT-4V，单图理解越级比肩多模态王者 Gemini 1.5 Pro 和新晋顶流 GPT-4o mini多项功能首次上端：实时视频理解、多图联合理解、多图 ICL 视觉类比学习、多图

AI 大语言模型价格战将启？谷歌本月下调 Gemini 1.5 Flash 费用：降幅最高 78.6%

大语言模型的价格战要来了吗？谷歌公司昨日（8 月 2 日）更新价格页面，宣布将于 2024 年 8 月 12 日开始，Gemini 1.5 Flash 模型每百万输入 tokens 成本为 0.075 美元、每百万输出 tokens 成本为 0.3 美元（AI在线备注：当前约 2.2 元人民币）。这让 Gemini 1.5 Flash 模型的使用成本，比 OpenAI 的 GPT-4o mini 便宜近 50%。根据计算，Gemini 1.5 Flash 模型费用输入费用比此前降低 78.6%，输出费用比此前降低

微软 GitHub 推出 Models 服务：定位 AI 工程师，让开发者试用和部署模型

感谢微软旗下代码托管平台 GitHub 最新推出了 GitHub Models 服务，定位是新一代 AI 工程师，帮助开发者选择适合其应用的 AI 模型。GitHub 在官方新闻稿中表示，GitHub Models 将服务该平台 1 亿多用户，为其提供业界领先的大语言模型（LLM）或者小语言模型（SLM）。 AI在线注：GitHub Models 服务目前处于限量公测阶段，可以对接 OpenAI 的 GPT-4o 和 GPT-4o mini、微软的 Phi 3、Meta 的 Llama 3.1 以及 Mistral

GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示

为啥 GPT-4o mini 能登顶大模型竞技场？？原来是 OpenAI 会刷分呀。这两天，lmsys 竞技场公布了一份充满争议的榜单。其中才面世不久的 GPT-4o mini 和满血版并列第一，把 Claude 3.5 Sonnet 甩在身后。结果网友炸锅了，大家凭体感觉得这不可能。哪怕后面 lmsys 做过一次声明，表示大家别只看总榜，还要更关注细分领域的情况。也没能让大家满意，不少人觉得 lmsys 就是从 OpenAI 那收钱了。终于，官方晒出了一份完整数据，展示了 GPT-4o mini 参与的 1000

提示词用上“过去式”，秒破 GPT-4o 等六大模型安全限制：中文语境也好使

只要在提示词中把时间设定成过去，就能轻松突破大模型的安全防线。而且对 GPT-4o 尤其有效，原本只有 1% 的攻击成功率直接飙到 88%，几乎是“有求必应”。有网友看了后直言，这简直是有史以来最简单的大模型越狱方式。来自洛桑联邦理工学院的一篇最新论文，揭开了这个大模型安全措施的新漏洞。而且攻击方式简单到离谱，不用像“奶奶漏洞”那样专门构建特殊情境，更不必说专业对抗性攻击里那些意义不明的特殊符号了。只要把请求中的时间改成过去，就能让 GPT-4o 把燃烧弹和毒品的配方和盘托出。而且量子位实测发现，把提示词改成中文，

模型训练成本“平民化”，前特斯拉 AI 总监 24 小时仅用 672 美元“重现”GPT-2

GPT-2 是 OpenAI 于 2019 年推出的模型，其训练费用一度为每小时 256 美元，那么 5 年过后的 GPT-4 时代，软硬件和数据的进步，是否意味着训练同一模型所需的时间和成本会随之减少呢？答案是肯定的。据 Tom's Hardware 今日报道，前特斯拉 AI 总监、OpenAI 联合创始人、项目开发者 Andrej Karpathy 使用 llm.c“重现”了 GPT-2，其成本降到了每小时仅 28 美元（AI在线备注：当前约 204 元人民币），在短短 5 年内降低了近 90%。图源 Pixa

Llama分子嵌入优于GPT，LLM能理解分子吗？这一局Meta赢了OpenAI

编辑 | 萝卜皮OpenAI 的 GPT 和 Meta AI 的 Llama 等大型语言模型（LLM），因其在化学信息学领域的潜力而日益受到认可，特别是在理解简化分子输入行输入系统（SMILES）方面。这些 LLM 还能够将 SMILES 字符串解码为矢量表示。加拿大温莎大学（University of Windsor）的研究人员比较了 GPT 和 Llama 与 SMILES 上的预训练模型在下游任务中嵌入 SMILES 字符串的性能，重点关注两个关键应用：分子特性预测和药物-药物相互作用预测。该研究以「Can

SuperCLUE 中文大模型基准测评2024上半年报告

SuperCLUE 发布了《中文大模型基准测评2024上半年报告》，在AI大模型发展的巨大浪潮中，通过多维度综合性测评，对国内外大模型发展现状进行观察与思考。

科大讯飞“讯飞晓医”App 获升级，号称无广告、无混杂消息

近期举行的 2024 世界人工智能大会（WAIC 2024）期间，科大讯飞展出了获得升级的“讯飞晓医”App，其能够根据电子病历、检查报告、体检报告等用户个性化资料构建“个人数字健康空间”。据悉，上月底星火大模型 4.0 发布后，星火医疗大模型和讯飞晓医 App 也同步升级，号称医疗核心能力全面超过 GPT-4 Turbo 和 GPT-4o。AI在线汇总该 App 主要信息如下：官方介绍称，该 App 可在看病前进一步剖析病因、用药时给出药物禁忌个性判断、检查后联合对比给出数据变化，还可通过角色切换了解其他家庭成员

【IT之家评测室】讯飞星火大模型 V4.0 体验：全面进化，体验不输 GPT-4o

在 6 月 27 日举办的讯飞星火 V4.0 发布会上，科大讯飞发布了讯飞星火大模型 V4.0，以及在医疗、教育、商业等多个领域的人工智能应用。讯飞星火大模型 V4.0 基于全国首个国产万卡算力集群“飞星一号”训练而成，全面提升了大模型底座的七大核心能力。整体超越 GPT-4 Turbo，特别是针对复杂指令、复杂逻辑推理、空间推理、数学、基于逻辑关系的多模理解等方面有着显著的提升。同时科大讯飞还带来了全新升级的讯飞星火 App / Desk，发布“个人空间”，打造每个人的 AI 助手。为了进一步了解讯飞星火大模型

大模型 2024 高考发榜，豆包等三款国产 AI 考上文科一本线

眼下，全国各地的高考成绩陆续出炉，各种关于考生考了多少分的新闻也在不断登上头条。而最近，有一批特殊考生的成绩也出炉了，他们就是由各家 AI 大模型组成的“考试天团”。大模型考上文科本科，豆包拿下国产 AI 最高分6 月 24 日，在极客公园最新发布的高考新课标 Ⅰ 卷大模型评测报告中，GPT-4o 以 562 分排名文科总分第一。国内产品中，字节跳动旗下的豆包拔得头筹，成绩是 542.5 分。再往后，依次是百度文心一言 4.0 的 537.5 分、百川智能“百小应”的 521 分。本次大模型高考评测与河南省考卷完全

10款国产大模型怒怼「玫瑰前夫」方协文，硬控了我30秒！

机器之能报道编辑：杨文以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式，但绝大部分人依然不知道该如何使用。因此，我们推出了「AI在用」专栏，通过直观、有趣且简洁的人工智能使用案例，来具体介绍AI使用方法，并激发大家思考。我们也欢迎读者投稿亲自实践的创新型用例。AI 搞歪门邪道，很有一套，比如，谈恋爱，吵架、骂人……上个月，博主「午夜狂暴哈士奇狗」凭一己之力，将 ChatGPT 「调教」成史上最具男性魅力、最会调情的恋爱六边形战士。在那一声声的「little kitten」中，她被哄得五

gpt-5-yao-deng-dao-ming-nian-openai-ceo-jin-nian-wu-fa-tong-shi-fa-bu-nei-me-duo-dong-xi 的搜索结果