多层注意力

DeepSeek 开源周首日：发布大模型加速利器FlashMLA 解码性能飙升至3000GB/s

DeepSeek 开源周首日正式开源其最新技术成果FlashMLA，这是一款专为英伟达Hopper架构GPU打造的高效多层注意力（Multi-Layer Attention）解码内核。该技术特别针对变长序列场景进行优化，可显著提升大模型推理性能。 FlashMLA的核心技术特性包括对BF16精度的全面支持，以及采用块大小为64的页式键值缓存（Paged KV Cache）系统，实现更精确的内存管理。

2/24/2025 10:18:00 AM

AI在线

资讯热榜

AI视频资讯早读！7个产品更新+8个案例精选 OpenAI发布gpt-image-1 API，4o图像生成能力正式开放 OpenAI 推出 macOS ChatGPT 新功能，助力编程与搜索更高效 7个AI视频照明样式提示词+效果展示宝马将在中国新车型中引入DeepSeek人工智能学术打假！清华上交大研究颠覆认知：强化学习竟是大模型推理的"绊脚石" 更懂公务员的大模型：写作/意图理解/公文排版全拿捏，部署成本直降90%，来自金山大模型向量去重的N种解决方案！

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据机器人模型谷歌大模型 Midjourney 智能开源用户学习 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion Gemini 马斯克算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Anthropic Sora 3D AI for Science AI设计机器学习 GPU AI视频开发者场景华为预测人形机器人百度伟达苹果 Transformer 深度学习 xAI 模态字节跳动大语言模型 Claude 搜索驾驶文本具身智能神器推荐 Copilot LLaMA 算力安全视觉视频生成干货合集应用大型语言模型科技亚马逊训练特斯拉 AGI DeepMind