DeepSeek 开源周首日：发布大模型加速利器FlashMLA 解码性能飙升至3000GB/s

2025-02-24 10:18

DeepSeek 开源周首日正式开源其最新技术成果FlashMLA，这是一款专为英伟达Hopper架构GPU打造的高效多层注意力（Multi-Layer Attention）解码内核。该技术特别针对变长序列场景进行优化，可显著提升大模型推理性能。 FlashMLA的核心技术特性包括对BF16精度的全面支持，以及采用块大小为64的页式键值缓存（Paged KV Cache）系统，实现更精确的内存管理。

DeepSeek 开源周首日正式开源其最新技术成果FlashMLA，这是一款专为英伟达Hopper架构GPU打造的高效多层注意力（Multi-Layer Attention）解码内核。该技术特别针对变长序列场景进行优化，可显著提升大模型推理性能。

FlashMLA的核心技术特性包括对BF16精度的全面支持，以及采用块大小为64的页式键值缓存（Paged KV Cache）系统，实现更精确的内存管理。在性能表现方面，基于CUDA12.6平台，FlashMLA在H800SXM5GPU上创下了显著成绩:在内存受限场景下达到3000GB/s的处理速度，在计算受限场景下则实现580TFLOPS的算力水平。

该项目已经过生产环境验证，展现出优异的稳定性。开发团队表示，FlashMLA的设计借鉴了FlashAttention2&3和cutlass等项目的优秀经验，并在此基础上实现了创新突破。

开发者可通过简单的安装命令快速部署FlashMLA:只需执行"python setup.py install"即可完成安装，随后可运行测试脚本"python tests/test_flash_mla.py"体验其性能。

开源地址：https://github.com/deepseek-ai/FlashMLA

刚刚，DeepSeek开源FlashMLA，推理加速核心技术，Star量飞涨中

上周五，DeepSeek 发推说本周将是开源周（OpenSourceWeek），并将连续开源五个软件库。第一个项目，果然与推理加速有关。北京时间周一上午 9 点，刚一上班（同时是硅谷即将下班的时候），DeepSeek 兑现了自己的诺言，开源了一款用于 Hopper GPU 的高效型 MLA 解码核：FlashMLA。

2/24/2025 10:28:00 AM

机器之心

DeepSeek开源放大招：FlashMLA让H800算力狂飙！曝光低成本秘笈

就在刚刚，DeepSeek放出了开源周首日的重磅炸弹——FlashMLA。这是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核，特别针对变长序列进行了优化，目前已正式投产使用。经实测，FlashMLA在H800 SXM5平台上（CUDA 12.6），在内存受限配置下可达最高3000GB/s，在计算受限配置下可达峰值580 TFLOPS。

2/24/2025 11:32:57 AM

dream

DeepSeek开源周“第一刀”砍向算力！重磅开源FlashMLA，挑战H800算力极限，网友直呼：极致的工程设计！

编辑 | 伊风出品 | 51CTO技术栈（微信号：blog51cto）上周五，DeepSeek刚刚预告了重磅开源周！周一一早，DeepSeek就履行承诺，开源了针对 Hopper GPU 的高效 MLA 解码内核——FlashMLA！图片根据DeepSeek介绍，FlashMLA内核针对变长序列进行了优化，是已投入生产的核心技术。

2/24/2025 12:52:46 PM

伊风

资讯热榜

AI视频资讯早读！7个产品更新+8个案例精选 OpenAI发布gpt-image-1 API，4o图像生成能力正式开放 OpenAI CEO批评礼貌语言浪费:与AI对话不需要“请”和“谢谢” OpenAI 推出 macOS ChatGPT 新功能，助力编程与搜索更高效 7个AI视频照明样式提示词+效果展示宝马将在中国新车型中引入DeepSeek人工智能学术打假！清华上交大研究颠覆认知：强化学习竟是大模型推理的"绊脚石" 更懂公务员的大模型：写作/意图理解/公文排版全拿捏，部署成本直降90%，来自金山

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据机器人模型谷歌大模型 Midjourney 智能开源用户学习 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion Gemini 马斯克算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Anthropic Sora 3D AI for Science AI设计机器学习 GPU AI视频开发者场景华为预测人形机器人百度伟达苹果 Transformer 深度学习 xAI 模态字节跳动大语言模型 Claude 搜索驾驶文本具身智能神器推荐 Copilot LLaMA 算力视频生成视觉安全干货合集应用大型语言模型科技亚马逊训练特斯拉 AGI 2024

顶部

DeepSeek 开源周首日：发布大模型加速利器FlashMLA 解码性能飙升至3000GB/s

相关资讯

刚刚，DeepSeek开源FlashMLA，推理加速核心技术，Star量飞涨中

DeepSeek开源放大招：FlashMLA让H800算力狂飙！曝光低成本秘笈

DeepSeek开源周“第一刀”砍向算力！重磅开源FlashMLA，挑战H800算力极限，网友直呼：极致的工程设计！