一文速通 DeepSeek 家族核心技术点:从 LLM 到 R1!

DeepSeek横空出世并迅速走红,引发了全球科技圈的强烈震动,NVIDIA股价暴跌18%,全球科技股市市值蒸发近1万亿美元。 特朗普也居然公开称赞DeepSeek的崛起具有“积极意义”,并表示这给美国敲响了“警钟”。 Anthropic一方面肯定了DeepSeek的成就,另一方面却呼吁美国政府加强对华芯片管制。

DeepSeek横空出世并迅速走红,引发了全球科技圈的强烈震动,NVIDIA股价暴跌18%,全球科技股市市值蒸发近1万亿美元。特朗普也居然公开称赞DeepSeek的崛起具有“积极意义”,并表示这给美国敲响了“警钟”。Anthropic一方面肯定了DeepSeek的成就,另一方面却呼吁美国政府加强对华芯片管制。这也表明中国的AI实力已经不容小觑,正在改变全球AI的发展格局。

一文速通 DeepSeek 家族核心技术点:从 LLM 到 R1!

DeepSeek系列在技术创新的道路上不断深耕,每一次新版本的发布,都是在原有基础上的一次飞跃,不断为行业注入新的活力。从最初的DeepSeek LLM到最新的DeepSeek R1,每一款模型都蕴含了独特的创新点,在模型架构、训练方法、数据集开发等多个维度上不断突破。

本文笔者将总结梳理DeepSeek家族从最初的DeepSeek LLM、DeepSeekMoE、DeepSeekMath,再到DeepSeek V2、DeepSeek V3以及最新的DeepSeek R1,每一款模型都包括哪些核心技术点,看看DeepSeek采用了哪些技术构建了最先进的大模型。每一次的升级迭代都伴随着哪些训练数据的优化、模型结构的升级以及优化方式的更新,并与大家分享~

DeepSeek LLM

(1) 发布日期:2024年1月

(2) 数据&架构

  • 2万亿个中英文词元(2T Tokens)
  • 调整了模型层数,DeepSeek 7B是30层,DeepSeek 67B是95层。
  • 使用 GQA 优化推理成本。

(3) 训练&Infra

  • 使用多阶段学习率调度器替代余弦学习率调度器,可以方便复用第一个训练阶段,在continual training时有独特的优势。
  • 使用内部自研的轻量级高效训练框架HAI-LLM来支持训练和评估LLM。

(4) Scaling Laws

找到最优的模型/数据规模分配比例。

(5) 性能

  • 67B模型性能超越LLaMA-2 70B。
  • Chat版本优于GPT-3.5。

DeepSeek MoE

(1) 发布日期: 2024年1月

(2) 数据&架构

  • 采用了创新的 MoE 架构,涉及两个主要策略:细粒度专家细分和共享专家隔离。
  • 在2T英文和中文token上从头开始训练。

(3) 性能

  • DeepSeekMoE 16B的性能与DeekSeek 7B和LLaMA2 7B相当,计算量仅为40%左右。
  • 16B版本可在单40GB内存GPU上部署,通过有监督微调构建了聊天模型,还采用专家级和设备级平衡损失缓解负载不均衡问题。

DeepSeek Math

(1) 发布日期:2024年2月

(2) 数据&架构

  • 来自Common Crawl提取的120B高质量数学网页数据,总数据量是开源数据集OpenWebMath的9倍。
  • 引入了PPO变体的强化学习算法GRPO,丢弃了Critic Model,显著减少了训练显存并提升了对齐效果。

(3) 预训练

使用了代码领域模型DeepSeek-Coder-v1.5初始化,可以获得比从通用用模型初始化更好的数学能力。

(4) 性能

在中英数学基准榜单上超过Mistral 7B、Llemma-34B,逼近GPT-4能力,跟Minerva 540B效果相当。

DeepSeek V2

(1) 发布日期:2024年5月

(2) 数据&架构

  • 改造注意力模块,提出 MLA(Multi-Head Latent Attention)。
  • 改进 MoE(Mixture-of-Experts)。
  • 基于YaRN扩展长上下文。

(3) 训练

设计三种辅助损失并引入Token-Dropping策略,通过多阶段训练流程提升性能。

DeepSeek V3

(1) 发布日期:2024年12月

(2) 数据&架构

  • 采用无辅助损失的负载均衡策略。
  • 多Token预测。
  • 基于YaRN扩展长上下文。

(3) 训练

  • 使用 FP8 混合精度训练框架。
  • 使用高效通信框架。

(4) 优化

通过知识蒸馏提升推理性能。

(5) 性能

  • 在低训练成本下性能强大。
  • 基础模型超越其他开源模型。
  • 聊天版本与领先闭源模型性能相当。

DeepSeek R1

(1) 发布日期:2025年1月

(2) 数据&架构

采用多阶段训练和冷启动数据。

(3) 性能

  • DeepSeek-R1-Zero无需SFT就有卓越推理能力,与OpenAI-o1-0912在AIME上性能相当。
  • DeepSeek-R1推理性能与OpenAI-o1-1217相当。
  • 提炼出六个蒸馏模型,显著提升小模型推理能力。

相关资讯

DeepSeek-R1详细解读!

DeepSeek-R1爆火,今天来详细看下。 论文地址::::现有LLMs在推理任务上的改进主要依赖监督微调(SFT)和后训练(Post-Training)方法,但这些方法需要大量人工标注数据且成本高昂。 OpenAI的o1系列模型虽通过扩展推理链(Chain-of-Thought, CoT)提升了性能,但其测试时扩展仍存在挑战。

服务器总是繁忙?DeepSeek-R1本地部署图文版教程来啦

最近一段时间,国产大模型DeepSeek-R1在市场上迅速崛起,成为了众多用户的新宠。 然而,伴随其热度与用户量的急剧攀升,由此导致服务器繁忙的状况频繁出现。 为了摆脱服务器繁忙的困扰,本地部署DeepSeek-R1成为了一个绝佳的解决方案,这不仅减少了对网络连接的依赖,还能增强数据安全性。

OpenAI首席研究官:DeepSeek独立发现了o1的一些核心思路,奥特曼、LeCun纷纷置评

成本打下来了,需求更多才对? 春节这几天,国内外 AI 圈都被 DeepSeek 刷了屏。 英伟达的股市震荡更是让全世界看得目瞪口呆(参见《英伟达市值蒸发近 6000 亿美元,而 DeepSeek 刚刚又开源新模型》)。