一文速通 DeepSeek 家族核心技术点：从 LLM 到 R1！

DeepSeek横空出世并迅速走红，引发了全球科技圈的强烈震动，NVIDIA股价暴跌18%，全球科技股市市值蒸发近1万亿美元。特朗普也居然公开称赞DeepSeek的崛起具有“积极意义”，并表示这给美国敲响了“警钟”。 Anthropic一方面肯定了DeepSeek的成就，另一方面却呼吁美国政府加强对华芯片管制。

DeepSeek横空出世并迅速走红，引发了全球科技圈的强烈震动，NVIDIA股价暴跌18%，全球科技股市市值蒸发近1万亿美元。特朗普也居然公开称赞DeepSeek的崛起具有“积极意义”，并表示这给美国敲响了“警钟”。Anthropic一方面肯定了DeepSeek的成就，另一方面却呼吁美国政府加强对华芯片管制。这也表明中国的AI实力已经不容小觑，正在改变全球AI的发展格局。

DeepSeek系列在技术创新的道路上不断深耕，每一次新版本的发布，都是在原有基础上的一次飞跃，不断为行业注入新的活力。从最初的DeepSeek LLM到最新的DeepSeek R1，每一款模型都蕴含了独特的创新点，在模型架构、训练方法、数据集开发等多个维度上不断突破。

本文笔者将总结梳理DeepSeek家族从最初的DeepSeek LLM、DeepSeekMoE、DeepSeekMath，再到DeepSeek V2、DeepSeek V3以及最新的DeepSeek R1，每一款模型都包括哪些核心技术点，看看DeepSeek采用了哪些技术构建了最先进的大模型。每一次的升级迭代都伴随着哪些训练数据的优化、模型结构的升级以及优化方式的更新，并与大家分享~

DeepSeek LLM

(1) 发布日期：2024年1月

(2) 数据&架构

2万亿个中英文词元（2T Tokens）
调整了模型层数，DeepSeek 7B是30层，DeepSeek 67B是95层。
使用 GQA 优化推理成本。

(3) 训练&Infra

使用多阶段学习率调度器替代余弦学习率调度器，可以方便复用第一个训练阶段，在continual training时有独特的优势。
使用内部自研的轻量级高效训练框架HAI-LLM来支持训练和评估LLM。

(4) Scaling Laws

找到最优的模型/数据规模分配比例。

(5) 性能

67B模型性能超越LLaMA-2 70B。
Chat版本优于GPT-3.5。

DeepSeek MoE

(1) 发布日期: 2024年1月

(2) 数据&架构

采用了创新的 MoE 架构，涉及两个主要策略：细粒度专家细分和共享专家隔离。
在2T英文和中文token上从头开始训练。

(3) 性能

DeepSeekMoE 16B的性能与DeekSeek 7B和LLaMA2 7B相当，计算量仅为40%左右。
16B版本可在单40GB内存GPU上部署，通过有监督微调构建了聊天模型，还采用专家级和设备级平衡损失缓解负载不均衡问题。

DeepSeek Math

(1) 发布日期：2024年2月

(2) 数据&架构

来自Common Crawl提取的120B高质量数学网页数据，总数据量是开源数据集OpenWebMath的9倍。
引入了PPO变体的强化学习算法GRPO，丢弃了Critic Model，显著减少了训练显存并提升了对齐效果。

(3) 预训练

使用了代码领域模型DeepSeek-Coder-v1.5初始化，可以获得比从通用用模型初始化更好的数学能力。

(4) 性能

在中英数学基准榜单上超过Mistral 7B、Llemma-34B，逼近GPT-4能力，跟Minerva 540B效果相当。

DeepSeek V2

(1) 发布日期：2024年5月

(2) 数据&架构

改造注意力模块，提出 MLA（Multi-Head Latent Attention）。
改进 MoE（Mixture-of-Experts）。
基于YaRN扩展长上下文。

(3) 训练

设计三种辅助损失并引入Token-Dropping策略，通过多阶段训练流程提升性能。

DeepSeek V3

(1) 发布日期：2024年12月

(2) 数据&架构

采用无辅助损失的负载均衡策略。
多Token预测。
基于YaRN扩展长上下文。

(3) 训练

使用 FP8 混合精度训练框架。
使用高效通信框架。

(4) 优化

通过知识蒸馏提升推理性能。

(5) 性能

在低训练成本下性能强大。
基础模型超越其他开源模型。
聊天版本与领先闭源模型性能相当。

DeepSeek R1

(1) 发布日期：2025年1月

(2) 数据&架构

采用多阶段训练和冷启动数据。

(3) 性能

DeepSeek-R1-Zero无需SFT就有卓越推理能力，与OpenAI-o1-0912在AIME上性能相当。
DeepSeek-R1推理性能与OpenAI-o1-1217相当。
提炼出六个蒸馏模型，显著提升小模型推理能力。

一文速通 DeepSeek 家族核心技术点：从 LLM 到 R1！

DeepSeek LLM

DeepSeek MoE

DeepSeek Math

DeepSeek V2

DeepSeek V3

DeepSeek R1

相关资讯

DeepSeek-R1详细解读！

服务器总是繁忙？DeepSeek-R1本地部署图文版教程来啦

OpenAI首席研究官：DeepSeek独立发现了o1的一些核心思路，奥特曼、LeCun纷纷置评