AIGC宇宙 AIGC宇宙

OpenAI的强化微调:RL+Science 创造新神还是灭霸?

作者:机器之心
2024-12-08 02:50
2024 年 12 月 6 号加州时间上午 11 点,OpenAI 发布了新的 Reinforcement Finetuning 方法,用于构造专家模型。 对于特定领域的决策问题,比如医疗诊断、罕见病诊断等等,只需要上传几十到几千条训练案例,就可以通过微调来找到最有的决策。 数据的形式类似于 instructiong tuning 的常见形式,有多个选项以及正确选项。

2024 年 12 月 6 号加州时间上午 11 点,OpenAI 发布了新的 Reinforcement Finetuning 方法,用于构造专家模型。对于特定领域的决策问题,比如医疗诊断、罕见病诊断等等,只需要上传几十到几千条训练案例,就可以通过微调来找到最有的决策。

数据的形式类似于 instructiong tuning 的常见形式,有多个选项以及正确选项。同一时间,OpenAI 还发布了一个强化微调研究项目,鼓励学者专家们上传自己领域的独特数据,测试他们的强化微调能力。

1

这个结果很漂亮,用的技术正是已经广泛应用于 alignment, math, coding 领域的方法,其前身就是 Reinforcement learning from human feedback (RLHF). RLHF 用来对齐大模型与人类偏好性数据,训练数据的形式为(问题,回答 1,回答 2,偏好),让用户选择更喜欢的回答,学习人类的偏好,训练奖励模型(reward model)。给定 reward model 之后,用强化学习算法 (PPO, DPO)来微调模型参数,微调后的模型更容易生成用户喜欢的内容。

当求解 math 和 coding 问题时,每个问题都有正确答案。这时可以用 MCTS 等 RL 方法,生成大量的不同的求解轨迹,有的正确有的错误,用回答正确的轨迹做 SFT,或者用(正确解法,错误解法)的组合来做 RLHF。更进一步,可以把轨迹生成和 RLHF 微调这两步迭代起来,不断调整 reference policy,迭代不断提高正确率,如 GRPo 或 SPPO 等。

2

OpenAI 的 RFT 只需要很少数据,就能再一些专家场景中,学会医疗诊断和科学决策,这个方法本质上还是 CoT+RL,其中 CoT 这步可以 brainstorm 增强生成多样的不同推理路径,然后根据答对没有来进行打分,再继续做 RL 微调并且迭代。CoT 可以是把一系列的科学 / 医疗常识串联起来。这些常识来自预训练。

难点在于如何定义什么是 RL 里的 state-transition, 也即一步的思维推理。每一步 state transition 是大模型已经学到的科学常识,再用 RL 找到通向高分的完整链路。关键问题是如何做到 token-level 和 full-response level RL 直接找到平衡点,也即如何描述”state”。token-level 的微调效率太低、不容易泛化;full-response level 又会迷糊了推理的过程。

更 fundamental 的问题是:何找到思维链里面的 “state” 呢,思维的 state representation 是不是已经在预训练里涌现出来了?有了合适的 state representation,RFT 就可以 easy, stable and robust。

3

Demo 里也能看出这个技术现阶段的局限性。罕见病排查,从医学角度重要,但是确实已知的科学,而且是已知科学问题中最简单的一类。罕见病的诊断往往有清晰的基因指标,和相对流程化的判别路径。之所以能用很少的数据就学会这个诊断过程,是因为很多人类专家任务的 know-how 其实是简单的决策树,几十个案例就足以囊括底层逻辑。

这类问题本质是多项选择题,只要选择有限,不同选项之间区分度大就很容易掌握。

这个 demo 还规避了 RLHF 里最难搞的 reward modeling 步骤,随便设定一个打分函数就能用,比如正确答案给 1 分,错误答案 0 分。

然而真正的科学问题,往往不是有固定选项的选择题,没有标准答案,如何定义 action,如何定义问题该怎么问,如何给新的科学概念一个定义一个名字,这才是最高级也最有挑战的科学难题。科学的数据也往往是 noisy 的,不是简单的多选题,没有清晰的决策树。

4

讲完了技术的潜力,我们来讨论风险。今天 OpenAI 发布 RFT 的同一时间,推出了强化微调研究项目。这个项目邀请全世界的科研人员提供他们领域的决策数据集,让 OpenAI 来测试其 RFT 推理决策能力,不断进化。

然而,看到这个项目的时候,让人冷汗不已。

今年夏天,我参加美国科学院召开的 AI for science 安全讨论会,包括诺奖获得者 David Baker 在内的很多研究者也在场。讨论会上,每个人都要回答为什么自己正在开发的 AI for science 技术是安全的,是可控的、可追踪的。

如果科学这颗宝石,如果都集中在了同一个非开源公司手里,那么我们造出的是新神,还是带上了无限手套的灭霸?

作者介绍

王梦迪现任普林斯顿大学电子与计算机工程系终身教授,并创立并担任普林斯顿大学 “AI for Accelerated Invention” 中心的首任主任。她的研究领域涵盖强化学习、可控大模型、优化学习理论以及 AI for Science 等多个方向。王梦迪曾先后在 Google DeepMind、高等研究院与 Simons 研究院担任访问学者,并荣获 MIT TR35、美国国家科学基金会(NSF)事业奖、Google 学者奖等多项荣誉。2024 年 7 月,她获颁 AACC Donald Eckman 奖,以表彰其在控制与动态系统、机器学习及信息论交叉领域所作出的杰出贡献。

原文链接:

https://zhuanlan.zhihu.com/p/11273216258?utm_medium=social&utm_psn=1848703455629303809&utm_source=wechat_timeline&utm_id=0

相关资讯

突破!自然语言强化学习(NLRL):一个可处理语言反馈的强化学习框架

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
12/7/2024 4:56:00 PM
机器之心

自动学会工具解题,RL扩展催化奥数能力激增17%

在大模型推理能力提升的探索中,工具使用一直是克服语言模型计算局限性的关键路径。 不过,当今的大模型在使用工具方面还存在一些局限,比如预先确定了工具的使用模式、限制了对最优策略的探索、实现透明度不足等。 为了解决这些难题,来自上海交通大学、SII 和 GAIR 的研究团队提出了一种全新框架 ToRL(Tool-Integrated Reinforcement Learning),该方法允许模型直接从基座模型开始,通过强化学习自主探索最优工具使用策略,而非受限于预定义的工具使用模式。
4/1/2025 6:48:00 PM
机器之心

o1 研发团队完整采访:Ilya早期曾参与,灵感源于AlphaGo

自从 OpenAI 的 o1 问世以来,它强大的推理能力就承包了 AI 圈近期的热搜。不需要专门训练,它就能直接拿下数学奥赛金牌,甚至可以在博士级别的科学问答环节上超越人类专家。展示 o1 实力的 demo,我们看了不少,评估 o1 表现的评测,全网比比皆是,关于 o1 技术路线的讨论也如火如荼,引发了广泛的关注和深入的思考。不过 o1 背后的故事,还鲜为人知,那些在幕后默默付出的团队成员们,他们的故事同样值得被讲述和铭记。刚刚,OpenAI 发布了 o1 研发团队的完整访谈,为我们揭秘了 o1 的「成长历程」。o
9/22/2024 1:27:00 PM
机器之心