单机即可部署运行 DeepSeek R1 671B 模型,浪潮信息推出元脑 R1 推理服务器

DeepSeek 开源了多版本模型,其中,DeepSeek R1 671B 模型作为全参数基础大模型,相比蒸馏模型具有更强的泛化能力、更高的准确性和更好的上下文理解能力,但也对系统显存容量、显存带宽、互连带宽和延迟提出了更高要求。

浪潮信息今日宣布推出元脑 R1 推理服务器,通过系统创新和软硬协同优化,单机即可部署运行 DeepSeek R1 671B 模型

image.png

AI在线注:DeepSeek 开源了多版本模型,其中,DeepSeek R1 671B 模型作为全参数基础大模型,相比蒸馏模型具有更强的泛化能力、更高的准确性和更好的上下文理解能力,但也对系统显存容量、显存带宽、互连带宽和延迟提出了更高要求:

在 FP8 精度下至少需要约 800GB 显存承载,FP16 / BF16 精度下需要 1.4TB 以上的显存空间

此外,DeepSeek R1 是典型的长思维链模型,具有短输入、长输出的应用特点,推理解码阶段依赖更高的显存带宽和极低的通信延迟。

元脑 R1 推理服务器 NF5688G7 原生搭载 FP8 计算引擎,提供 1128GB HBM3e 显存,满足 671B 模型 FP8 精度下不低于 800GB 显存容量的需求,单机支持全量模型推理情况下,仍保留充足的 KV 缓存空间,该机的显存带宽可达 4.8TB/s。

在通信方面,GPU P2P 带宽达 900GB/s,基于最新推理框架单机可支持 20-30 用户并发。同时,单台 NF5688G7 配备 3200Gbps 无损扩展网络,可根据用户业务需求增长实现敏捷扩展,提供 R1 服务器集群 Turnkey 解决方案。

元脑 R1 推理服务器 NF5868G8 是专为大推理模型(Large Reasoning Model)设计的高吞吐推理服务器,业界首次实现单机支持 16 张标准 PCIe 双宽卡,提供最高 1536GB 显存容量,支持在 FP16 / BF16 精度下单机部署 DeepSeek 671B 模型。

该机采用基于 PCIe Fabric 的 16 卡全互连拓扑,任意两卡 P2P 通信带宽可达 128GB/s,降低通信延迟超 60%。通过软硬协同优化,相较传统 2 机 8 卡 PCIe 机型,NF5868G8 可将 DeepSeek 671B 模型推理性能提升近 40%,目前已支持多元 AI 加速卡选配。

相关资讯

全球 AI 服务器市场迎来爆发,出货量有望年增近 28%

根据 TrendForce 集邦咨询的最新研究报告,全球 AI 服务器出货量预计在2025年将实现近28% 的年增长。 这一增长主要得益于 DeepSeek 的推动,云服务提供商(CSP)们将更加积极地开发成本较低的自有 ASIC 方案。 此外,市场的重心将从 AI 训练逐步转向 AI 推理,预计到2025年,AI 推理服务器的市场占比将接近50%。

景嘉微发布全国产 AI 加固服务器:预置 DeepSeek,开箱即用

服务器内置 Deepseek-R1 1.5B ~ 70B 蒸馏模型,支持零配置启动大模型的交互演示。开发者可快速调用预置模型接口。

浪潮信息彭震:AI+是目标也是机会,要推动AI成为百行千业的生产力

去年以来,ChatGPT引爆了新一轮的AI浪潮,随后国内大模型进入“百模大战”的热闹中。 如今,一年多过去,国内外的大模型开启了不同的叙事方式,OpenAI已在酝酿GPT5,继续探求通往AGI的路径,而国内,大模型公司开始考虑商业化,落地应用成为国内大模型的主旋律。 但在这个过程中,当大模型走进应用,如何更好地落地,已然成为一众AI领域厂商关注的焦点所在。