月之暗面联手UCLA推新模型Mixture-of-Expert,提升语言模型训练效率

在人工智能领域,训练大型语言模型(LLMs)已成为推动技术进步的重要方向。 然而,随着模型规模和数据集的不断扩大,传统的优化方法 —— 特别是 AdamW—— 逐渐显露出其局限性。 研究人员面临着计算成本高、训练不稳定等一系列挑战,包括梯度消失或爆炸、参数矩阵更新不一致及分布式环境下的资源需求高等问题。

在人工智能领域,训练大型语言模型(LLMs)已成为推动技术进步的重要方向。然而,随着模型规模和数据集的不断扩大,传统的优化方法 —— 特别是 AdamW—— 逐渐显露出其局限性。研究人员面临着计算成本高、训练不稳定等一系列挑战,包括梯度消失或爆炸、参数矩阵更新不一致及分布式环境下的资源需求高等问题。因此,迫切需要更高效、更稳定的优化技术来应对这些复杂性。

为了解决这些挑战,Moonshot AI (月之暗面)与加州大学洛杉矶分校(UCLA)联合开发了 Moonlight,一个使用 Muon 优化器的 Mixture-of-Expert(MoE)模型。Moonlight 提供两种配置:一种是激活参数为30亿,另一种为总参数为160亿,训练使用了5.7万亿个标记。Muon 优化器的创新在于利用牛顿 - 舒尔茨迭代法进行矩阵正交化,确保梯度更新在模型参数空间中的均匀性。这种改进为传统的 AdamW 提供了一个有前景的替代方案,提高了训练效率和稳定性。

QQ_1740360210200.png

在技术细节上,Moonlight 对 Muon 优化器进行了两项关键调整。首先,引入了权重衰减技术,以控制大模型和大量标记训练时权重的增长。其次,针对每个参数的更新幅度进行了校准,使其根据权重矩阵的最大维度的平方根进行缩放,从而实现更新的一致性。

通过对 Moonlight 的实证评估,研究人员发现其在中间检查点的表现优于传统的 AdamW 训练模型。例如,在语言理解任务中,Moonlight 在 MMLU 基准测试上获得了更高的分数。在代码生成任务中,性能提升更加明显,表明 Muon 的优化机制对任务表现有积极贡献。

Moonlight 项目的成功实施将为大型语言模型的训练带来新的标准。Muon 优化器的开源实现以及预训练模型和中间检查点的发布,预期将促进对可扩展优化技术的进一步研究。

github:https://github.com/MoonshotAI/Moonlight?tab=readme-ov-file

huggingface:https://huggingface.co/moonshotai/Moonlight-16B-A3B

论文:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf

划重点:  

🌟 Moonlight 模型是由 Moonshot AI 与 UCLA 联合开发的 Mixture-of-Expert 模型,提供30亿和160亿参数配置,训练使用5.7万亿个标记。  

⚙️ Muon 优化器通过牛顿 - 舒尔茨迭代法和权重衰减技术,显著提高了大型模型训练的效率和稳定性。  

📈 实证结果显示,Moonlight 在多个任务上优于传统的 AdamW 训练模型,表现出更好的语言理解和代码生成能力。

相关资讯

月之暗面推出新优化器Muon,计算效率大幅提升

近日,人工智能领域再度掀起波澜,月之暗面(Moonshot)宣布开源新版优化器 Muon,成功将计算效率提升至传统 AdamW 的两倍。 这个新优化器的推出恰逢 DeepSeek 即将连续开源多个代码库,引发了业内的高度关注和讨论。 Muon 优化器最初由 OpenAI 的研究者 Keller Jordan 等人在2024年提出,针对小规模模型训练时表现优异。

Meta首席AI科学家预测五年内将出现新的AI架构范式,开启 “机器人十年”

在日前的达沃斯 “技术辩论” 会上,Meta 的首席 AI 科学家 Yann LeCun 对未来五年的人工智能发展做出了激动人心的预测。 他认为,现有的人工智能系统将在未来3到5年内面临巨大的变革,将出现一种 “新的 AI 架构范式”,超越当今普遍使用的生成式 AI 和大型语言模型(LLM)的能力。 LeCun 指出,当前的 LLM 虽然在语言处理上表现良好,但在真正智能的行为上却存在显著局限性。

Sakana AI 的 Transformer² 模型突破 LLM 限制,实现动态推理

Sakana AI 是一家专注于自然启发算法的人工智能研究实验室,近日推出了一种名为 Transformer² (Transformer-squared) 的创新自适应语言模型。 该模型无需昂贵的微调,即可在推理过程中动态学习并适应新任务,这标志着大型语言模型 (LLM) 技术发展的重要一步。 Transformer² 的核心创新在于其独特的两步动态权重调整机制。