研究者

归一化提高预训练、缓解梯度不匹配,Facebook的模型超越GPT-3

来自 Facebook AI 的研究者提出了 NormFormer,该模型能够更快地达到目标预训练的困惑度,更好地实现预训练困惑度和下游任务性能。
  • 1