AIGC宇宙 AIGC宇宙

MIT

405B大模型也能线性化!斯坦福MIT最新研究,0.2%训练量让线性注意力提分20+

生产级大模型应用线性注意力的方法,来了。 线性Attention(包括RNN系列),再也不用困在几B参数的范围内娱乐了。 一套方法,即可线性化现有各种量级的Transformer模型,上至Llama 3.1 405B,也只需要十来张显卡在两天内搞定!
11/21/2024 8:39:08 AM
新智元
  • 1