AIGC宇宙 AIGC宇宙

微软发布全球首个1-bit大模型:内存缩至0.4 GB,参数只有0和±1,性能追平全精度

作者:文摘菌
2025-04-23 12:11
微软的BitNet b1.58 2B4T 的技术报告悄然上线。 其实在开源社区里,关于极致低比特量化的大模型早就有各种传闻,这次微软研究院终于亮出底牌。 ——全球首个原生1-bit、规模高达20亿参数的开源大模型。

微软的BitNet b1.58 2B4T 的技术报告悄然上线。

其实在开源社区里,关于极致低比特量化的大模型早就有各种传闻,这次微软研究院终于亮出底牌。

——全球首个原生1-bit、规模高达20亿参数的开源大模型。

图片图片

图注:这张图表明,在同等内存占用下,BitNet b1.58 2B模型取得了更高的性能分数,比当前主流开源模型更高效

别看名字有点拗口,b1.58 2B4T,背后可不简单,这玩意不仅在性能上追平甚至部分超越同级别全精度模型,更是把内存、能耗和推理速度都拉低到令人发指的地步。

而且,模型权重直接上 Hugging Face,推理代码 GPU、CPU 双版本全开源,门槛之低,真是让人有点小震撼。

1.BitNet b1.58 2B4T 到底是什么?

一句话总结:这是世界首个原生1-bit、20亿参数、性能媲美全精度的开源大模型。

大家都知道,大模型开源越来越卷,LLaMA、Qwen、Gemma、MiniCPM 各种百花齐放。但有个痛点始终没解决——太吃资源。

于是,极致量化被推上风口——1-bit(极端比特化,只允许权重取-1、0、+1)。

说起来简单,真要规模化落地,性能往往一落千丈,之前不是只能做小模型,就是性能掉得让人心疼。

BitNet b1.58 2B4T 这次直接原生1-bit训练,参数上到2B,训练数据高达4万亿token,目标就是:

做到极致高效的同时,性能绝不妥协。

图注:在苹果M2 CPU上都能快速运行图注:在苹果M2 CPU上都能快速运行

2.架构和训练怎么炼成的?

核心创新点有三:

1)BitLinear 层

用自研 BitLinear 替换掉传统 Transformer 的全精度线性层。权重量化到1.58 bit(三值:-1、0、+1),激活也量化到8 bit。这样不仅模型文件暴减,推理也能用比特操作加速。

2)训练方案极致调优

  • 预训练用两阶段学习率+权重衰减,先大步快走,再精细收敛。
  • 数据集涵盖超大规模网页、代码、数学合成数据,两阶段分别喂不同质量的数据。
  • SFT(监督微调)和 DPO(直接偏好优化)全都用上,还专门调大了学习率和轮数,让1-bit模型也能吃透任务。

3.推理实现

为了让1.58-bit和8-bit混合矩阵乘法在GPU/CPU上都能跑起来,团队还专门造了 CUDA kernel 和 C++ 库,模型权重直接高效打包,能在普通笔电、服务器、边缘设备都无压力上线。

图片图片

3.性能表现:效率+能力双丰收

  • 内存占用:0.4GB(非embedding部分),是同级全精度模型的1/4甚至更低。
  • 推理延迟:29ms/Token(CPU上),比LLaMA 1B等快出一大截。
  • 能耗:仅0.028J/Token,低到离谱。
  • 综合能力:平均分 54.19,逼近 Qwen2.5-1.5B(55.23),大幅超越 MiniCPM、Gemma、LLaMA 等同级模型。
  • 单项指标:在 ARC-Challenge、GSM8K、CommonsenseQA 等关键任务上还反超大部分对手。

图片图片

图注:如图所示,BitNet b1.58 2B 在内存、延迟、能耗三项指标上全面领先

更狠的是,和常见的 INT4 量化模型比,BitNet b1.58 2B4T 在内存进一步压缩的情况下,性能反而更稳,几乎没有明显损失。

而且,不只是干掉传统PTQ量化,放到同类1-bit模型里,BitNet b1.58 2B4T 也是一骑绝尘,甚至比部分更大参数、后量化的模型还强。

4.one more thing

BitNet b1.58 2B4T 已经是1-bit模型的天花板,但团队还留了不少悬念:

  • 如何实现更大规模扩展(7B、13B)?
  • 怎样支持更长上下文,挑战大段落、复杂推理任务?
  • 多语言、多模态集成,让1-bit模型也能“看图说话”
  • 软硬件协同,期待新一代AI芯片为低比特模型量身定做
  • 理论层面,1-bit训练为啥能这么有效?还有哪些魔法值得挖掘?

附:模型和推理工具全开源

技术报告:https://arxiv.org/abs/2504.12285

GPU/CPU推理库:https://aka.ms/bitnet

相关标签:

相关资讯

Ollama的介绍与测试

一、Ollama介绍Ollama是一个开源工具,专为在本地机器上便捷部署和运行大型语言模型(LLM)而设计。 它提供了一个简洁高效的界面,让用户能够轻松地创建、执行和管理这些复杂的模型。 此外,Ollama还配备了一个丰富的预构建模型库,使得这些模型能够无缝集成到各种应用程序之中,大大提升了开发效率和用户体验。
3/10/2025 8:30:00 AM
Python伊甸园

Ollama的配置修改与接口调用

一、修改环境变量1.1  配置远程访问在我们本地部署好ollama之后,仅支持本机访问,我们可以通过修改环境变量让其他人可以远程访问。 在wins电脑上增加环境变量:复制1.2  配置本地模型路径1.2.1 本地模型默认路径wins本地模型默认路径:C:\Users\%username%\.ollama\models。 这里 %username% 是当前登录的用户名。
3/10/2025 9:00:00 AM
Python伊甸园

RAG(五)BGE-M3,最流行的开源text embedding模型

项目地址: embedding? Text Embedding 是一种将文本数据映射到高维向量空间的技术,这些向量能够捕捉文本的语义信息。 通过将文本嵌入到向量空间中,我们可以利用向量之间的距离或相似性来衡量文本之间的语义相关性。
3/21/2025 7:00:00 AM
Glodma
  • 1