出品 | 51CTO技术栈(微信号:blog51cto)
嘉宾 | 周博洋、魏新宇
采访 | 薛彦泽
撰稿 | 李美涵
DeepSeek R1的发布在全球人工智能领域引发了巨大反响。这款由中国初创企业DeepSeek推出的低成本、高性能AI模型,打破了人们对AI研发“高投入、长周期”的固有认知,被西方媒体誉为“人工智能的斯普特尼克时刻”。
DeepSeek的“奇迹”有目共睹。其应用上线仅20天,日活跃用户数就突破了2000万,而ChatGPT达到同样的日活量则耗时150天之余。不仅如此,DeepSeek的开源路线也广受好评,R1成功登顶开源平台“抱抱脸”最受欢迎模型,还以一己之力开启了一波开源热潮,影响不仅波及国内模型厂商,还促使OpenAI的Altman也放出了开源计划。
另一个近期AI圈的热点,则是千呼万唤始出来的GPT-4.5。在“大模型撞墙论”甚嚣尘上之际,OpenAI官方承认,GPT-4.5的优势在于规模庞大,尽管模型参数量级扩张,但性能并未达到前沿水平。这迫使我们正视:在AI领域,新的时代已经开始。
为此,AIGC实战派特别邀请了微软(中国)有限公司高级架构师周博洋和AI技术专家魏新宇,就DeepSeek出现后值得关注的热门话题进行了深入讨论和解读。有趣的是,两位专家达成了一个共识:预训练时代并未终结,然而,新的Scaling Law已经诞生。
周博洋认为,新的Scaling Law其实是“思考时间”,即模型思考的时间越久,给出的回答质量就越佳。
魏新宇则提出,新Scaling Law的重点在于后训练的数据质量和奖励模型的设计。谁能在这些问题上有所突破,谁就找到了模型性能提升的第二曲线。
以下是访谈要点:
•预训练时代的持续:两位专家一致认为,预训练和微调仍然是模型学习知识的标准范式。尽管Scaling曲线不再陡峭,但方法本身仍然有效。
•新的Scaling Law:魏新宇认为,新的Scaling Law将出现在训练数据和奖励模型的设计方面。他从奖励模型最常见的三种设计讲起,揭秘了DeepSeek R1的奖励算法如何为模型打分。
•强化学习与推理能力:周博洋指出,强化学习之所以在出现很久后,才由R1走通了强推理的路径,是因为此前基础模型能力的局限性。“没有CoT的能力,强化就没有意义,因为强化学习不是直接赋予模型推理能力,而是激发它潜在的推理能力。”
•小模型的强推理能力:魏新宇认为,小模型拥有强推理能力的关键在于数据强化和训练方法的选择。他以微软的小模型明星Phi-4为例,给小模型的蒸馏和微调提出了一些建议。
•接入DeepSeek的建议:周博洋提供了清晰可行的建议:如果是为了业务,就选最稳的API;如果是日常使用,就选方便易用的。
•AI应用新场景:魏新宇提到,R1的推理能力为AI应用解锁了新的场景,在教育、科研领域的潜力更大。推理意味着模型不仅能胜任现有知识的问答,还能对未来趋势做预测,例如预测票房、股市等。
1.预训练时代终结了吗?
薛彦泽: 第一个问题,预训练时代终结了吗?
魏新宇: 我的观点是预训练并没有结束,它依然是大模型的基础。比如最近很火的DeepSeek R1,也是基于V3进行强化学习的。预训练仍然是通用知识库的来源,所以仍然是必要的。不过,预训练会与后续的强化学习结合起来,优化以前大规模消耗算力的预训练模式。因此不能说预训练终结,我认为是一种范式的提升。
周博洋: 补充两句,我觉得预训练和微调依然是模型学习知识的标准范式。
首先,预训练和监督微调是模型理解知识本源的关键步骤。我们会给模型各种数据,比如互联网数据、特定领域的数据比如MATH-500等等,目的是让模型理解语义,继而懂得Token之间的关联性。传统上,预训练主要是让模型学会续写和理解语言的逻辑,而微调则是让模型生成符合人类习惯和规范的文本。
从GPT-3开始,强化学习被引入,最初是为了让模型对齐人类价值观,比如避免偏见、暴力等不良内容。但在训练的过程中,逐渐发现了强化学习在推理领域的潜力。
至于预训练是否终结,我觉得现在讨论还为时尚早。虽然Scaling的曲线没有那么陡峭了,大家也从强化学习等其他方向,探索提升能力的路径。但是预训练本身仍然有效。
薛彦泽: 那目前Scaling Law的瓶颈怎么突破呢?
周博洋: 还是从两个维度来看。
第一个维度是算力和模型参数的关系。在固定的算力体系下,模型参数和token数量的关系是关键。比如,现在有些模型已经接近Scaling Law的极限,但如果能突破这个限制,比如把70B参数的模型和1.4T的数据放大十倍,就会变成700B参数和14T的数据,这其实已经接近一些现有大模型的规模了。不过,像DeepMind这样的研究机构可能觉得已经达到算力上限了,但OpenAI的模型成长速度其实还能更快。因为现在更受限于多卡互联训练时的通信损耗,比如马斯克提到的十万卡训练,效率低主要是因为通信损耗。所以,未来可能需要在算力优化和通信效率上做更多工作。
第二个维度是数据的获取和利用。现在很多人认为数据挖掘已经到底了。但我们忽略了99%的数据其实不在集中数据里,而是分散在端侧设备上,这些数据可能因为安全问题无法联网,价值也没被挖掘,这可能是突破Scaling Law瓶颈的一个方向。
2.后训练、推理语境下的新Scaling Law究竟是什么?
薛彦泽: 后训练、推理语境下的新Scaling Law究竟是什么?
周博洋:我觉得后训练和推理语境下的新Scaling Law其实跟“思考时间”有关。思维链的产生和我的偶像Donald Norman有关,他在大学痴迷玩德国扑克,这个游戏就是思考的事件越长,获胜概率才会更高。这跟Alpha Go有点像,它们会花很长时间思考,最终战胜人类。人类大脑也有快思考和慢思考,简单的事情比如约喝咖啡,很快就能决定;但复杂的事情比如讨论算法,就需要很多中间步骤和时间。
魏新宇: 我觉得后训练和推理语境下的新Scaling Law,重点在于后训练的数据质量和奖励模型的设计。以前是靠增加模型参数和数据量来提升性能,但现在更多是看怎么优化后训练阶段。
现在强化学习领域,奖励模型的设计也很重要。相当于给模型的答案打分,判断是否符合人类标准。奖励方式大概有三种:1. 直接打分:只看答案是否正确来打分;2. 多步骤打分:结合推理步骤和结果一起打分;3. 全步骤打分:每一步都打分,理论上效果最好,但很复杂,实际很难完全实现。
像DeepSeek的话,奖励模型还会基于一些规则进行打分,比如推理问题和非推理的问题打分规则各有侧重。比如训练医学问题时,奖励模型会根据答案是否正确、正确答案出现的次序位置等因素打分,正确答案越靠前,分数越高。
薛彦泽: OpenAI宣布从GPT-5开始就做基础模型和推理模型的混合模型了,那么,后训练会推动模型的架构进行变革吗?
周博洋: 首先,任何架构的模型都可以做推理。我觉得后训练可能会推动模型架构的变革,但目前的核心还是提升效率,而不是彻底改变模型的本质。
从模型架构的改进来看,比如DeepSeek V3模型使用的MoE技术,MoE把模型的FFN层或MLP层变大,理论上能让模型更好地学习语义,从而提升性能。但问题在于,如果模型太大,推理时会面临显存占用过高的问题。因为推理时模型的参数是固定的,传统模型会激活所有神经元,即使有些神经元在推理时并不需要,这就会浪费显存。
为了解决这个问题,MoE技术在训练时只激活部分“专家”(即MLP子模块),而不是全部。这样可以提高效率,但训练难度也增加了。比如,Llama 3.1模型被认为是MoE模型,但它的训练者也承认MoE模型很难训练充分,因为很难确定哪些专家在推理时真正起作用。
DeepSeek V3模型通过一些函数强制实现负载均衡,确保所有专家都能被训练到,这样MoE技术才能真正发挥作用。但目前来看,这些改进的核心还是为了提高效率,而不是彻底改变模型的推理方式。模型的变革可能还在路上,目前的重点是让现有架构更好地支持推理和后训练。
3.OpenAl o1、o3模型都免费了DeepSeek R1还有优势吗?
薛彦泽: OpenAl o1、o3模型都免费了DeepSeek R1还有优势吗?沿着这个思路,我们还想了解两个开源或者说免费的模型,究竟应该如何比较?DeepSeek的核心优势在哪里?
魏新宇: 我觉得DeepSeek R1还是有优势的,即使OpenAI的o1、o3模型免费了。首先,免费模型虽然开源,但不一定能满足所有定制化需求。比如DeepSeek R1虽然模型较大,有600多B,部署需要近1T显存,但它的推理能力很强,而且在特定领域,比如金融行业,可以通过蒸馏或微调来优化,让模型更小、推理速度更快。因为从使用体验看,R1、o3模型有时候推理一个问题需要长达十几秒甚至更久,这在生产环境中可能难以接受。
其次,企业对数据安全和合规性有很高要求。DeepSeek R1可以通过特定手段确保模型的回答符合人类价值观和当地法规,比如在中东国家避免涉及某些敏感话题。而开源模型在这方面可能需要额外的定制和优化。
再者,推理效率和高可用性也是关键。DeepSeek R1在推理过程中采用了诸如MLA技术等优化手段,通过低秩联合压缩等方式节省显存,提升推理速度。尤其是蒸馏以后,去做垂域模型,比全量模型更适合大规模商业化部署。
所以,开源或免费模型的优势在于成本低、易获取,但DeepSeek R1的核心优势在于推理效率、定制化能力、数据安全性和高可用性。
薛彦泽:DS的横空出现,会不会改变国内互联网的竞争格局?
魏新宇:从技术人员的角度来看,我觉得DeepSeek的出现肯定会对国内模型的竞争格局产生影响,但最终的竞争还是会落到整体生态上。现在国内AI市场竞争很激烈,大家都在推各种模型,但模型之间的能力差距其实并没有那么大。比如,R1可能比其他模型强一些,但并不是说它比其他模型高出一大截,大家的能力其实都差不多。
关键在于,企业有没有自己固有的客户流量或生态。比如微信接入DS后,可以基于自己的生态推动应用;百度也可以通过地图等业务,基于模型做附加值的东西。谷歌和微软也是一样,谷歌的Gemini有YouTube和其他工具,微软有自己的办公软件生态,这些都是它们的优势。
想了解更多AIGC的内容,请访问:
51CTO AI.x社区
https://www.51cto.com/aigc/