AIGC宇宙 AIGC宇宙

月之暗面 Kimi 联合清华大学等开源大模型推理架构 Mooncake

作者:汪淼
2024-11-28 01:06
本次开源将采用分阶段的方式,逐步开源高性能 KVCache 多级缓存 Mooncake Store 的实现,同时针对各类推理引擎和底层存储 / 传输资源进行兼容。
感谢月之暗面 Kimi 和清华大学 MADSys 实验室 2024 年 6 月联合发布了 Kimi 底层的 Mooncake 推理系统设计方案。该系统基于以 KVCache 为中心的 PD 分离和以存换算架构,提升了推理吞吐量

图片

近日,为了进一步加速该技术框架的应用与推广,月之暗面 Kimi 和清华大学 MADSys 实验室联合 9#AISoft、阿里云、华为存储、面壁智能、趋境科技等共同发布开源项目 Mooncake,共建以 KVCache 为中心的大模型推理架构。

11 月 28 日,Mooncake 技术框架已开源上线,AI在线附地址如下:

https://github.com/kvcache-ai/Mooncake

月之暗面 Kimi 联合清华大学等开源大模型推理架构 Mooncake

据介绍,Mooncake 开源项目从论文延伸,以超大规模 KVCache 缓存池为中心,通过以存换算的创新理念大幅度减少算力开销,提升了推理吞吐量。

本次开源将采用分阶段的方式,逐步开源高性能 KVCache 多级缓存 Mooncake Store 的实现,同时针对各类推理引擎和底层存储 / 传输资源进行兼容。其中传输引擎 Transfer Engine 部分现在已经在 GitHub 全球开源。

Mooncake 开源项目的最终目标是,为大模型时代打造一种新型高性能内存语义存储的标准接口,并提供参考实现方案。

Mooncake 推理系统架构图

Mooncake 推理系统架构图

相关资讯

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

2025 年 1 月 20 日 Kimi k1.5 正式发布,伴随着技术报告的公布,有网友表示:“这应该是全球范围内,除 OpenAI 之外的公司首次实现 o1 正式版的多模态推理性能了吧! ”一时间,Kimi k1.5 成了话题王者。 但在一个月后的 2 月 24 日,X 上出现了一篇关于 Kimi k1.5 的技术爆料帖,博主直言 k1.5 所用到的强化学习算法,其实是借鉴了自己在 24 年 5 月提出的一种名为 SPPO 的技术。
2/27/2025 2:22:00 PM
郑佳美

ACL 2024 | 让纯LLM实现类人的符号逻辑推理能力,开源框架SymbCoT来了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]徐俊东,本文第一作者。本科毕业于伦敦大学学院(UCL),硕士就读于新加坡国立大学(NUS)计算机系。主要研究方向为大语言模型的推理能力。个人主页:(LLMs)实现严谨可信的推理,新国立提出
6/7/2024 2:13:00 PM
机器之心

昆仑万维开源Skywork R1V视觉思维链推理模型

昆仑万维正式发布了全球首个工业界多模态推理模型 Skywork R1V(简称 “R1V”)。 这款具有38亿参数的模型在性能上已接近知名闭源模型 DeepSeek-R1,甚至在多个基准测试中表现出色,横扫了一系列当前的最先进技术(SOTA)。 昆仑万维选择开源 R1V,旨在推动技术的共享与进步,为全球 AI 开源社区注入新活力。
3/18/2025 4:06:00 PM
AI在线