量化

Meta 推出 Llama 3.2 1B / 3B 模型量化版:功耗更低、可适用更多轻量移动设备

继今年 9 月开源 Llama 3.2 的 1B 与 3B 模型之后,Meta 于 10 月 24 日发布了这两个模型的量化版本,量化后的模型大小平均减少了 56%,RAM 使用量平均减少了 41%,模型速度提高了 2 至 4 倍,同时降低了功耗,使这些模型能够部署到更多移动设备上。 AI在线注:模型量化(Model Quantization)就是通过各种训练方式将浮点模型转为定点模型,可以压缩模型参数,降低模型的复杂性,以便于在更轻量的平台运行。 Meta 表示,他们采用了量化感知训练(Quantization-Aware Training,QAT)和后训练量化(SpinQuant)两种方法对模型进行量化,其中“量化感知训练”更重视模型的准确性,而“后训练量化”更强调模型的可移植性。

DeepSpeed ZeRO++:降低4倍网络通信,显著提高大模型及类ChatGPT模型训练效率

。ZeRO++ 相比 ZeRO 将总通信量减少了 4 倍,而不会影响模型质量。
  • 1