月之暗面因 DeepSeek 调整工作重心？内部人士：强化学习或许会是个方向

作者：凌辰

2025-02-15 04:51

2 月 15 日下午消息，据媒体报道，月之暗面内部已经将“持续拿到 SOTA 结果”确定为当下最重要的工作目标。2025 年，月之暗面围绕模型能力的关键方向除了继续强化多模态部分外，还会继续强化长文本推理能力。

报道分析称，DeepSeek 爆火后，DeepSeek 与月之暗面存在的路线差异，让外界面临重新审视月之暗面技术模式、用户增长模式的情况。其中，月之暗面闭源，坚持预训练（需要大量卡和算力资源），且不把蒸馏技术作为关键，在 C 端市场通过大量投流实现拉新；而 DeepSeek 则是开源，虽然也采取预训练，但把蒸馏技术作为关键手段大幅度节省成本，在 C 端市场并未投流。

而今，DeepSeek 采用区别与月之暗面的路线，也取得了现阶段更为出色的效果。业内人士认为，月之暗面如果想守住生态位，“需要做一些改变或者尝试，比如开源，比如调整引流策略等。”不过目前，月之暗面尚未明确是否“接入”DeepSeek，对于接下来是否“开源”，公司也未置评媒体问询。

对于月之暗面是否会因 DeepSeek 而调整工作重心一事，新浪科技向月之暗面方面求证，截止发稿公司暂无回应。不过有内部人士透露称，“RL（强化学习）大概率会是一个（工作重点）方向”。

作为此次 DeepSeek 出圈后最受关注的热门技术话题，DeepSeek 通过大规模强化学习技术得到比肩 OpenAI o1 能力的 DeepSeek-R1-Zero，令业界倍感兴奋。新浪科技了解到，去年 11 月份月之暗面宣布推出新一代数学推理模型 k0-math 之际，Kimi 探索版便通过运用强化学习技术创新了搜索体验，在意图增强、信源分析和链式思考三大推理能力上实现突破。彼时，月之暗面 Kimi 创始人杨植麟便对强化学习这一技术路线带来的模型能力提升给予了高度评价。

而在近日 OpenAI 发布关于推理模型在竞技编程中应用的研究论文报告《Competitive Programming with Large Reasoning Models》中，论文也特别提到，“中国的 DeepSeek-R1 和 Kimi k1.5 通过独立研究显示，利用思维链学习（COT）方法，可显著提升模型在数学解题与编程挑战中的综合表现。其中 k1.5 便是 DeepSeek 和 Kimi 在 1 月 20 日同时发布的新型推理模型。”

月之暗面因 DeepSeek 调整工作重心？内部人士：强化学习或许会是个方向

相关资讯

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项技术

消息称 Kimi 大砍投放预算，DeepSeek 冲击之下月之暗面暂缓“烧钱”投广告

Kimi大幅削减广告预算，DeepSeek崛起令月之暗面压力倍增