当前位置: 首页> 腾云科技> 正文

月之暗面联手UCLA推新模型Mixture-of-Expert,提升语言模型训练效率

在人工智能领域,Moonshot AI与UCLA联合开发的Moonlight模型,采用Muon优化器,显著提升了大型语言模型的训练效率和稳定性。通过创新的牛顿-舒尔茨迭代法和权重衰减技术,Moonlight在多个任务上超越了传统的AdamW优化器,尤其在语言理解和代码生成方面表现优异。

亮点提要:

Moonlight模型是由Moonshot AI与UCLA联合开发的Mixture-of-Expert模型,提供30亿和160亿参数配置,训练使用了5.7万亿个标记。

Muon优化器通过牛顿-舒尔茨迭代法和权重衰减技术,显著提高了大型模型训练的效率和稳定性。

实证结果显示,Moonlight在多个任务上优于传统的AdamW训练模型,表现出更好的语言理解和代码生成能力。

详情入口:

https://github.com/MoonshotAI/Moonlight?tab=readme-ov-file