AIGC宇宙 AIGC宇宙

Hopper

DeepSeek FlashMLA:大模型推理的“涡轮增压器”

FlashMLA(Flash Multi-head Latent Attention)是DeepSeek针对英伟达Hopper架构GPU(如H800/H100)设计的高效解码内核,其核心技术围绕多头潜在注意力(MLA)机制展开,通过软硬件协同优化实现性能突破
2/25/2025 9:08:12 AM
AI在线
  • 1