北京大学联合华为发布全栈开源 DeepSeek 推理方案

2025-03-10 07:19

据介绍，该方案基于北大自研 SCOW 算力平台系统、鹤思调度系统，并整合 DeepSeek、openEuler、MindSpore 与 vLLM / RAY 等社区开源组件，实现华为昇腾上的 DeepSeek 高效推理，并支持大规模算力集群训推一体化部署。所有开发者均可获取源码并根据需求二次开发，性能接近闭源方案。

感谢据华为技术有限公司和北京大学高性能计算校级公共平台消息，2025 年 3 月 9 日，北京大学联合华为发布 DeepSeek 全栈开源推理方案。

据介绍，该方案基于北大自研 SCOW 算力平台系统、鹤思调度系统，并整合 DeepSeek、openEuler、MindSpore 与 vLLM / RAY 等社区开源组件，实现华为昇腾上的 DeepSeek 高效推理，并支持大规模算力集群训推一体化部署。所有开发者均可获取源码并根据需求二次开发，性能接近闭源方案。

	全栈开源方案	其他闭源方案
模型	DeepSeek-R1-w8a8
硬件配置	2*Atlas 800I A2
输入长度	4096
输出长度	1024
系统输出吞吐	1198	1288
用户并发	128	128

目前，此方案在未名卓越一号集群部署成功。该集群由北京大学计算中心负责研制与运维管理，为北大鲲鹏昇腾科教创新卓越中心提供算力支持。AI在线查询获悉，作为国内首个基于高校自研基础软件的国产智算平台，该集群于 2024 年 11 月 18 日上线运行，首期集成 20 台昇腾 AI 服务器与 10 台鲲鹏通用服务器，AI 算力规模为 30.64PFlops（半精度）。

此次发布的 DeepSeek 推理方案依托全栈开源组件构建，在 openEuler 开源操作系统层面进行了深度优化；通过异构调度负载感知 MoE 冷热专家，从而更细粒度调度任务；通过异构融合来高效管理内存，减小系统内存碎片；利用毕昇编译器进一步优化，减少算子下发耗时，提升推理整体性能。

▲ 算力集群全栈开源推理方案架构图

华为 ModelEngine AI 平台支持 DeepSeek 全系列本地部署

为技术有限公司今日发文宣布，旗下 ModelEngine AI 平台全面支持 DeepSeek 大模型 R1 & V3 和蒸馏系列模型的本地部署与优化。

2/6/2025 4:55:09 PM

归泷（实习）

北大团队提出全新框架LIFT 将长上下文知识注入模型参数

北京大学张牧涵团队提出了一种全新的框架——Long Input Fine-Tuning （LIFT），通过将长输入文本训练进模型参数中，使任意短上下文窗口模型获得长文本处理能力。这一方法颠覆了传统的长文本处理思路，不再专注于无限扩充上下文窗口，而是将长文本知识内化到模型参数中，类似于人类将工作记忆转化为长期记忆的过程。目前大模型处理长文本面临两大主要挑战:传统注意力机制的平方复杂度导致处理长文本时计算和内存开销巨大模型难以理解散落在长文本各处的长程依赖关系现有的解决方案如RAG和长上下文适配各有局限:RAG依赖准确的检索，容易引入噪声导致幻觉长上下文适配的推理复杂度高，上下文窗口仍然有限LIFT的技术创新LIFT框架包含三个关键组件:动态高效的长输入训练通过分段的语言建模将长文本切分为有重叠的片段避免因过长上下文造成的推理复杂度提升和长程依赖丢失训练复杂度对长文本长度呈线性增长平衡模型能力的门控记忆适配器设计专门的Gated Memory Adapter架构动态平衡原始模型的In-Context Learning能力和对长输入的记忆理解允许模型根据查询自动调节使用多少LIFT记忆的内容辅助任务训练通过预训练LLM基于长文本自动生成问答类辅助任务补偿模型在切段训练中可能损失的能力帮助模型学会应用长文本中的信息回答问题实验结果LIFT在多个长上下文基准测试上取得显著提升:LooGLE长依赖问答:Llama38B的正确率从15.44%提升至29.97% LooGLE短依赖问答:Gemma29B的正确率从37.37%提升至50.33% LongBench多项子任务:Llama3通过LIFT在5个子任务中的4个有明显提升消融实验表明，Gated Memory架构相比使用PiSSA微调的原模型，在LooGLE ShortQA数据集上的GPT-4score提升了5.48%。

3/17/2025 3:59:00 PM

AI在线