METASPEECH
[浏覽需要 0 積分] 發布于

《MoE環遊記:5、均勻分布的反思》

https://kexue.fm/archives/10945

本文介绍了 MoE 的 Shared Expert 和 Fine-Grained Expert 策略,并指出它们某种程度上都体现了负载均衡的非最优性。

浏覽 (115)
點贊 (1)
收藏
評論