工程

OpenAI的强化微调:RL+Science 创造新神还是灭霸?

2024 年 12 月 6 号加州时间上午 11 点,OpenAI 发布了新的 Reinforcement Finetuning 方法,用于构造专家模型。 对于特定领域的决策问题,比如医疗诊断、罕见病诊断等等,只需要上传几十到几千条训练案例,就可以通过微调来找到最有的决策。 数据的形式类似于 instructiong tuning 的常见形式,有多个选项以及正确选项。

官宣开源 阿里云与清华大学共建AI大模型推理项目Mooncake

2024年6月,国内优质大模型应用月之暗面Kimi与清华大学MADSys实验室(Machine Learning, AI, Big Data Systems Lab)联合发布了以 KVCache 为中心的大模型推理架构 Mooncake。 通过使用以 KVCache 为中心的 PD 分离和以存换算架构,大幅提升大模型应用Kimi智能助手推理吞吐的同时有效降低了推理成本,自发布以来受到业界广泛关注。 近日,清华大学和研究组织9#AISoft,联合以阿里云为代表的多家企业和研究机构,正式开源大模型资源池化项目 Mooncake。

OpenAI重拾规则系统,用「AI版机器人定律」守护大模型安全

在大算力和大数据让基于统计的 AI 模型真正变得强大且有用之前,基于规则的系统长期以来是语言模型的主导范式。 顾名思义,基于规则的系统就是依赖人类编码的规则来执行决策。 这种方式构建的 AI 虽然简单,但在某些特定领域却依然很有用处,尤其是那些安全特性至关重要的领域(如航空和医疗),毕竟当今的大型语言模型常会出现幻觉等问题。

ECCV 2024 | 探索离散Token视觉生成中的自适应推理策略

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]本论文第一作者倪赞林是清华大学自动化系 2022 级直博生,师从黄高副教授,主要研究方向为高效深度学习与图像生成。他曾在 ICCV、CVPR、ECCV、ICLR 等国际会议上发表多篇学术论

OpenAI深夜突发SearchGPT!进军大模型搜索,谷歌、Perplexity危

最近,整个 AI 领域真是越发的卷了!除了大模型发布不断,也在不断带来新的产品体验。刚刚,OpenAI 正式发布了自己的大模型搜索产品 SearchGPT。Sam Altman 在 X 上表示:我们认为搜索功能还有改进的空间。我们推出一个名为 SearchGPT 的新原型产品。我们将从中学习,使其变得更好,然后将该技术集成到 ChatGPT 中,使其实时且最大限度地发挥作用。目前,OpenAI 正在测试 SearchGPT,它可以通过清晰且相关的来源为用户提供快速、及时的答案。这项功能已向一小部分用户和发布者推出,

RLHF不够用了,OpenAI设计出了新的奖励机制

OpenAI 的新奖励机制,让大模型更听话了。自大模型兴起以来,使用强化学习从人类反馈(RLHF)中微调语言模型一直是确保 AI 准确遵循指令的首选方法。为了确保 AI 系统安全运行并与人类价值观保持一致,我们需要定义期望行为并收集人类反馈来训练「奖励模型」。这种模型通过发出期望的动作来指导 AI。但是,收集这些常规和重复任务的人类反馈通常效率不高。此外,如果安全政策发生变化,已经收集的反馈可能会过时,需要新的数据。我们能否构建一种新的机制来完成这些任务?近日,OpenAI 公布了一种教导 AI 模型遵守安全政策的

OpenAI超级对齐团队遗作:两个大模型博弈一番,输出更好懂了

如果 AI 模型给的答案一点也看不懂,你敢用吗?随着机器学习系统在更重要的领域得到应用,证明为什么我们可以信任它们的输出,并明确何时不应信任它们,变得越来越重要。获得对复杂系统输出结果信任的一个可行方法是,要求系统对其输出产生一种解释,这种解释对人类或另一个受信任的系统来说是可读的,即可以完全理解以至于任何可能的错误都可以被发现。例如,为了建立对司法系统的信任,我们要求法院提供清晰易读的书面意见,解释并支持其决策。对于大型语言模型来说,我们也可以采用类似的方法。 不过,在采用这种方法时,确保语言模型生成的是易于理解

又遇到「GPT写的review」了?看看北大&密歇根的这个研究工作

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]本文是对发表在计算经济学顶级会议ACM Conference on Economics and Computation (EC'24)上的论文Eliciting Informative T

从LLM中完全消除矩阵乘法,效果出奇得好,10亿参数跑在FPGA上接近大脑功耗

让语言模型「轻装上阵」。一直以来,矩阵乘法(MatMul)稳居神经网络操作的主导地位,其中很大原因归结为 GPU 专门针对 MatMul 操作进行了优化。这种优化使得 AlexNet 在 ILSVRC2012 挑战赛中一举胜出,成为深度学习崛起的历史性标志。在这当中,有个值得注意的点是,AlexNet 利用 GPU 来提高训练速度,超越了 CPU 的能力,至此,GPU 的加入使得深度学习仿佛赢得了「硬件彩票」。尽管 MatMul 在深度学习中很流行,但不得不承认的是它占据了计算开销的主要部分,主要表现为 MatMu

Ilya参与,OpenAI给GPT-4搞可解释,提取了1600万个特征,还能看它怎么想

大模型也可解释了?大模型都在想什么?OpenAI 找到了一种办法,能给 GPT-4 做「扫描」,告诉你 AI 的思路,而且还把这种方法开源了。大语言模型(LLM)是当前 AI 领域最热门的探索方向,吸引了大量的关注和研究投入。它们强大的语言理解能力和生成能力在各种应用场景中都表现出巨大潜力。虽然我们见证了大模型迭代后性能上的显著提升,但我们目前对模型中的神经活动仍然只是一知半解。本周四,OpenAI 分享了一种查找大量「特征」的全新方法 —— 或许这会成为可解释的一种可用方向。OpenAI 表示,新方法比此前的一些

这就是OpenAI神秘的Q*?斯坦福:语言模型就是Q函数

还记得去年 11 月底爆出来的 Q* 项目吗?这是传说中 OpenAI 正在秘密开展、或将带来颠覆性变革的 AI 项目。如果你想回忆一下,可参看机器之心当时的报道《全网大讨论:引爆 OpenAI 全员乱斗的 Q * 到底是什么?》简而言之,Q* 很可能是 Q 强化学习和 A* 搜索这两种 AI 方法的结合。近日,斯坦福大学一个团队的一项新研究似乎为这一研究方向的潜力提供了佐证,其声称现在已经取得非凡成就的「语言模型不是一个奖励函数,而是一个 Q 函数!」由此发散思维猜想一下,也许 OpenAI 秘密的 Q* 项目或

开源大模型Llama 3王者归来!最大底牌4000亿参数,性能直逼GPT-4

ChatGPT 拉开了大模型竞赛的序幕,Meta 似乎要后来居上了。本周四,AI 领域迎来重大消息,Meta 正式发布了人们等待已久的开源大模型 Llama 3。                                                                    扎克伯格在 Facebook 上发帖:Big AI news today.与此同时,扎克伯格宣布:基于最新的 Llama 3 模型,Meta 的 AI 助手现在已经覆盖 Instagram、WhatsApp、Faceboo

从AIGC到AGI,为什么我们需要更多的“技术信仰派”?

整理 | 伊风采访 | 张晓楠嘉宾 | 巴川、朱雷、肖然作为AIGC应用落地元年,2024开年就抛给我们一些不太好回答的问题:在以探索AGI为长期目标时,我们该坚守技术信仰吗?除了复制国外GPT-4、Sora这样的成功案例,我们该如何寻求更大发展和突破?即便算力问题得以解决,算法的难题如何跨越?国内企业为什么大都部署多个大模型?为什么并非所有企业都该拥抱AIGC?前不久51CTO全新直播栏目《AIGC实战派》有幸邀请到竞技世界首席数据科学家巴川,元语智能联合创始人兼COO、SuperCLUE社区发起人朱雷以及Tho

OpenAI开源了:Transformer自动debug工具上线GitHub

不用敲代码,就可以快速探索模型结构。最近时常被吐槽不够开源的 OpenAI,突然开放了一次。今天一早,OpenAI 机器学习研究员 Jan Leike 宣布,OpenAI 开放了自己内部一直用于分析 Transformer 内部结构的工具。GitHub 链接:,虽然没有经过太多宣传,star 数量上涨得也挺快。Transformer Debugger 介绍Transformer Debugger (TDB) 是 OpenAI 对齐团队(Superalignment)开发的一种工具,旨在支持对小体量语言模型的特定行为

王室修图何必用PS?Midjourney上新「换脸魔法」,奥特曼一秒COS罗马将军

这两天,英国王室的 P 图事件闹得沸沸扬扬。3 月 10 日,威廉与凯特的 X 官方账号分享了一张凯特王妃和 3 个孩子的合影。然而,这张本意为辟谣的照片却掀起了一场「大家来找茬」的游戏,眼尖的网友发现了多处修图痕迹:还有一些猜测是,这张照片是由 AI 生成的。照片中人物数量比较多,且是相互依靠的动作,AI 直接生成的结果未必有这么自然,但也不能排除「局部 AI 生成」的可能性。随后,凯特王妃为「发布修改过的照片」正式道歉:「和许多业余摄影师一样,我偶尔也会尝试修图。我想为昨天我们分享的家庭照片引起的任何混乱表示歉

怎么劝ChatGPT干活效果最好?我们尝试了100种方法,有图有真相

在 ChatGPT API 中,系统提示是一项很有亮点的功能,它允许开发人员控制 LLM 输出的「角色」,包括特殊规则和限制。系统提示中的命令比用户输入提示中的命令要有效得多,这让开发人员拥有了更大的发挥空间,而不是像现在使用 ChatGPT 网页应用程序和移动应用程序那样仅仅使用用户提示。举个例子,一个很有趣的 Trick 就是「给小费」。BuzzFeed 数据科学家 Max Woolf 是数亿 ChatGPT 用户中的一员。他亲自尝试过:如果没有 500 美元的小费奖励,ChatGPT 只会返回一个表情符号,这

OpenAI赋予ChatGPT记忆功能,由你掌控

ChatGPT 新功能上线,有了记忆能力。很快你就能告诉 ChatGPT 忘记一些事情,或者在以后的对话中要求它记住特定的事情。今天,作为测试的一部分,OpenAI 开始为一小部分 ChatGPT 免费和付费用户推出新的功能,并在未来进行大规模的推广。该功能可让用户明确告诉 ChatGPT 记住某些内容或者用户查看它记住了什么。比如你住在郊区,更喜欢开车而不是乘坐公共交通,你可以简单地告诉 ChatGPT 这个事实(例如「记住我住在郊区,大部分时间开车」)。随着使用频率的增加,ChatGPT 对记忆功能将逐渐优化,

斯坦福和OpenAI提出meta-prompting,最强零样本prompting技术诞生了

在我们的工作群里,经常会有一位管理者来协调每个人的工作并汇总工作成果。近日,斯坦福大学的 Mirac Suzgun 和 OpenAI 的 Adam Tauman Kalai 提出了一种新的 prompting 方法:meta-prompting。类似于工作群,这种方法也是使用一个居中协调的指挥员(元模型)来协调使用不同用途的 AI 和其它工具。最新一代语言模型(尤其是 GPT-4、PaLM 和 LLaMa)已经成功拓展了自然语言处理和生成的边界。这些大规模模型可以解决许多不同任务,从写莎士比亚风格的十四行诗到总结复