文章来源:福汇下载发布时间:2025-04-06 17:23:55
2 月 24 日消息,月之暗面 Kimi 昨日发布了“Muon 可扩展用于 LLM 训练”的新技术报告,并宣布推出“Moonlight”:一个在 Muon 上训练的 30 亿 / 160 亿参数混合专家模型(MoE)。使用了 5.7 万亿个 token,在更低的浮点运算次数(FLOPs)下实现了更好的性能,从而提升了帕累托效率边界。
月之暗面称,团队发现 Muon 优化器可通过添加权重衰减、仔细调整每个参数的更新幅度等技术进行扩展,并具备如下亮点:
这些技术使得 Muon 能够在大规模训练中开箱即用,无需进行超参数调优。扩展法则实验表明,与计算最优训练的 AdamW 相比,Muon 实现了约 2 倍的计算效率。本次论文所使用的模型为 Moonlight-16B-A3B,总参数量为 15.29B,激活参数为 2.24B,其使用 Muon 优化器,在 5.7T Tokens 的训练数据下获得上述成绩。
我们的模型不仅突破了当前的 Pareto 前沿,还在训练所需的 FLOP 数大幅减少的情况下,达到了比以往模型更优的性能。 我们开源了一个分布式版本的 Muon 实现,它在内存使用和通信效率上都进行了优化。同时,我们也发布了预训练模型、经过指令调优的模型以及中间训练检查点,旨在为未来的研究提供支持。附有关链接如下:
GitHub:点此前往
Hugging Face :点此前往
相关攻略 更多
最新资讯 更多
DeepSeek宣布开源五个代码库,每日解锁新内容
更新时间:2025-04-07
报告称 DeepSeek App 上线一个月下载量破亿:几乎没花钱营销,周活跃用户最高近 9700 万
更新时间:2025-04-07
百度搜索 PC 端上线 DeepSeek-R1 满血版,提供联网服务
更新时间:2025-04-07
OpenAI 向多国 ChatGPT Pro 用户推出 AI代理工具 Operator:可自动执行日常任务
更新时间:2025-04-07
英伟达 CEO 黄仁勋首次公开回应 DeepSeek:投资者误解,AI 发展仍需强大算力
更新时间:2025-04-07
这五个国产AI视频神
更新时间:2025-04-07
剪映国际版,让你白嫖剪映
更新时间:2025-04-07
3个vivo浏览器实用技巧,你都了解吗?
更新时间:2025-04-07
到底是谁还在用?360浏览器,广告满天飞
更新时间:2025-04-07
把浏览器整成自动化了
更新时间:2025-04-07