DeepSeek 开源周首日:开源 FlashMLA,AI 推理速度再进化!

DeepSeek 开源周day1 推出 FlashMLA! 专为Hopper 架构 GPU打造的 超高效 MLA (Multi-Layer Attention) 解码内核,现在已经正式开源啦! 👏什么是 FlashMLA?

DeepSeek 开源周day1 推出 FlashMLA! 专为Hopper 架构 GPU打造的 超高效 MLA (Multi-Layer Attention) 解码内核,现在已经正式开源啦!👏

DeepSeek 开源周首日:开源 FlashMLA,AI 推理速度再进化!

什么是 FlashMLA?🤔

简单来说,FlashMLA就是一个为了让 英伟达Hopper架构 GPU跑得更快更溜的 MLA 解码加速器! 它主要针对 变长序列 (variable-length sequences) 的场景进行了深度优化,尤其是在大模型推理服务中,效率提升简直肉眼可见!🚀

根据官方介绍,FlashMLA 目前已经 在生产环境中使用,稳定性杠杠的!

FlashMLA 有啥亮点? ✨

  • • ✅ BF16 精度支持: 紧跟潮流,支持最新的 BF16 精度,性能与效率兼得!
  • • ✅ Paged KV Cache (页式键值缓存): 采用页式 KV 缓存,块大小为 64,更精细的内存管理,效率更高!
  • • ⚡️ 极致性能: 在 H800 SXM5 GPU 上,内存受限场景下可达 3000 GB/s 的惊人速度,计算受限场景也能达到 580 TFLOPS 的算力! 而且,这一切都基于 CUDA 12.6 实现的!

快速上手,体验飞一般的感觉! 💨

DeepSeek AI 也非常贴心地给出了快速上手指南,只需简单几步,就能体验 FlashMLA 的强大!

安装:

复制
python setup.py install

复制

跑个 Benchmark 试试水:

复制
python tests/test_flash_mla.py

DeepSeek 开源周首日:开源 FlashMLA,AI 推理速度再进化!

👉 GitHub 仓库传送门: https://github.com/deepseek-ai/FlashMLA

技术细节 & 引用

FlashMLA 的背后,离不开对 FlashAttention 2&3 以及 cutlass 等优秀项目的学习和借鉴。DeepSeek AI 在这些基础上进行了创新和优化,才有了今天的 FlashMLA。

写在最后

温馨提示: FlashMLA 需要 Hopper 架构 GPUCUDA 12.3 及以上 以及 PyTorch 2.0 及以上 版本支持哦! 使用前请确保你的环境满足要求!

相关资讯

OpenAI首席研究官:DeepSeek独立发现了o1的一些核心思路,奥特曼、LeCun纷纷置评

成本打下来了,需求更多才对? 春节这几天,国内外 AI 圈都被 DeepSeek 刷了屏。 英伟达的股市震荡更是让全世界看得目瞪口呆(参见《英伟达市值蒸发近 6000 亿美元,而 DeepSeek 刚刚又开源新模型》)。

DeepSeek-R1详细解读!

DeepSeek-R1爆火,今天来详细看下。 论文地址::::现有LLMs在推理任务上的改进主要依赖监督微调(SFT)和后训练(Post-Training)方法,但这些方法需要大量人工标注数据且成本高昂。 OpenAI的o1系列模型虽通过扩展推理链(Chain-of-Thought, CoT)提升了性能,但其测试时扩展仍存在挑战。

服务器总是繁忙?DeepSeek-R1本地部署图文版教程来啦

最近一段时间,国产大模型DeepSeek-R1在市场上迅速崛起,成为了众多用户的新宠。 然而,伴随其热度与用户量的急剧攀升,由此导致服务器繁忙的状况频繁出现。 为了摆脱服务器繁忙的困扰,本地部署DeepSeek-R1成为了一个绝佳的解决方案,这不仅减少了对网络连接的依赖,还能增强数据安全性。