月之暗面联手UCLA推新模型Mixture-of-Expert，提升语言模型训练效率

在人工智能领域，Moonshot AI与UCLA联合开发的Moonlight模型，采用Muon优化器，显著提升了大型语言模型的训练效率和稳定性。通过创新的牛顿-舒尔茨迭代法和权重衰减技术，Moonlight在多个任务上超越了传统的AdamW优化器，尤其在语言理解和代码生成方面表现优异。

亮点提要：

Moonlight模型是由Moonshot AI与UCLA联合开发的Mixture-of-Expert模型，提供30亿和160亿参数配置，训练使用了5.7万亿个标记。

Muon优化器通过牛顿-舒尔茨迭代法和权重衰减技术，显著提高了大型模型训练的效率和稳定性。

实证结果显示，Moonlight在多个任务上优于传统的AdamW训练模型，表现出更好的语言理解和代码生成能力。

详情入口：

https://github.com/MoonshotAI/Moonlight?tab=readme-ov-file

本站内容来源于网络，并不代表本站立场！版权归原作者所有，转发请注明来源，文章内容仅供参考。
腾云数据--为你提供快速、稳定、安全的专业云计算服务。www.qqidc.com.cn 联系QQ：810379922
本文链接： https://www.qqidc.com.cn/keji/336.html