在人工智能领域,Moonshot AI与UCLA联合开发的Moonlight模型,采用Muon优化器,显著提升了大型语言模型的训练效率和稳定性。通过创新的牛顿-舒尔茨迭代法和权重衰减技术,Moonlight在多个任务上超越了传统的AdamW优化器,尤其在语言理解和代码生成方面表现优异。
亮点提要:
Moonlight模型是由Moonshot AI与UCLA联合开发的Mixture-of-Expert模型,提供30亿和160亿参数配置,训练使用了5.7万亿个标记。
Muon优化器通过牛顿-舒尔茨迭代法和权重衰减技术,显著提高了大型模型训练的效率和稳定性。
实证结果显示,Moonlight在多个任务上优于传统的AdamW训练模型,表现出更好的语言理解和代码生成能力。
详情入口:
https://github.com/MoonshotAI/Moonlight?tab=readme-ov-file
腾云数据-为您提供快速、稳定、安全的专业云计算服务。www.qqidc.com.cn,联系QQ:810379922 新浪微博:腾云数据
本文链接: https://www.qqidc.com.cn/keji/336.html