METASPEECH
[浏覽需要 0 積分] 發布于

《MoE環遊記:4、難處應該多投入》

https://kexue.fm/archives/10815

本文提出了一种动态选择 Expert 数目的 MoE 设计,主要思想是对 Loss-Free 的 MoE 形式稍作修改,然后修改 Bias 项的更新规则,利用它的额外自由度来同时实现负载均衡和预算控制。

浏覽 (189)
點贊 (2)
收藏
評論