月之暗面:一年前就验证过长思维链,因成本高先搞了长文本

月之暗面研究员 Flood Sung 近日分享了 k1.5 模型背后的完整思考过程,并透露称,2024 年 9 月 12 号 OpenAI o1 发布带来的震撼效果,令自己陷入了 Long-CoT 的有效性反思中。

2 月 18 日上午消息,月之暗面研究员 Flood Sung 近日分享了 k1.5 模型背后的完整思考过程,并透露称,2024 年 9 月 12 号 OpenAI o1 发布带来的震撼效果,令自己陷入了 Long-CoT 的有效性反思中。因为 Long-CoT 的有效性,其实在一年多前月之暗面 Kimi 联合创始人 Tim 周昕宇就验证过,使用很小的模型,训练模型做几十位的加减乘除运算,将细粒度的运算过程合成出来变成很长的 CoT 数据做 SFT,就可以获得非常好的效果。

“我依然记得当时看到那个效果的震撼。”Flood Sung 表示,公司意识到 Long Context 的重要性,所以率先考虑把 Context 搞长,但却对 Long-CoT 这件事情不够重视,其实主要还是考虑了成本问题。“Long Context 主要做的是长文本输入,有 Prefill 预填充,有 Mooncake 加持,成本速度可控,而 Long-CoT 是长文本输出,成本高很多,速度也要慢很多,在这种情况下,把输出搞长就没有成为一个高优选项。”

Flood Sung 反思道,“但还有什么比 Performance (性能)更重要呢?成本和速度有摩尔定律加持,可以不断下降,只要把 Performance 搞上去,剩下的都不是主要问题。”所以,我们得搞 Long-CoT,搞 o1。“All in All,我们就是要训练模型能够像我们人一样思考,自由地思考。”Flood Sung 表示。

在月之暗面 Kimi 官网上,Flood Sung 刊发了一篇解密 o1 破解过程的万字长文,预示了公司关注并开始对标 o1 并推进相关研究的实质性动作。

月之暗面:一年前就验证过长思维链,因成本高先搞了长文本

相关资讯

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

2025 年 1 月 20 日 Kimi k1.5 正式发布,伴随着技术报告的公布,有网友表示:“这应该是全球范围内,除 OpenAI 之外的公司首次实现 o1 正式版的多模态推理性能了吧! ”一时间,Kimi k1.5 成了话题王者。 但在一个月后的 2 月 24 日,X 上出现了一篇关于 Kimi k1.5 的技术爆料帖,博主直言 k1.5 所用到的强化学习算法,其实是借鉴了自己在 24 年 5 月提出的一种名为 SPPO 的技术。

月之暗面发布 Kimi k1.5 多模态思考模型,实现 SOTA 级多模态推理能力

官方表示,在 short-CoT 模式下,Kimi k1.5 的数学、代码、视觉多模态和通用能力大幅超越了全球范围内短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet 的水平,领先达到 550%。

月之暗面因 DeepSeek 调整工作重心?内部人士:强化学习或许会是个方向

2 月 15 日下午消息,据媒体报道,月之暗面内部已经将“持续拿到 SOTA 结果”确定为当下最重要的工作目标。2025 年,月之暗面围绕模型能力的关键方向除了继续强化多模态部分外,还会继续强化长文本推理能力。