- [浏覽需要 0 积分] 发布于2025-06-20 23:28:42
《線性注意力簡史:從模仿、創新到反哺》
https://kexue.fm/archives/11033 本文简要梳理了线性 Attention 的发展脉络,并介绍了部分模型的数学原理。线性 Attention 从模仿 Softmax Attention 起步,逐渐发展出自身特色,如今已成为极具竞...贊 1評論浏覽 85 - [浏覽需要 0 积分] 发布于2025-06-14 09:51:34贊 1評論浏覽 115
- [浏覽需要 0 积分] 发布于2025-06-14 09:49:48
《msign算子的Newton-Schulz叠代(下)》
https://kexue.fm/archives/10996 本文介绍了求解 msign 算子的 Newton-Schulz 迭代的最新进展,它通过等值振荡定理和贪心转换,直接求出理论上的最优解,整个过程相当硬核,值得学习一波。贊 1評論浏覽 91 - [浏覽需要 0 积分] 发布于2025-05-26 22:58:04
《生成擴散模型漫談(三十):從瞬時速度到平均速度》
https://kexue.fm/archives/10958 本文以最近出来的 MeanFlow 为中心,讨论了“平均速度”视角下的扩散模型加速生成思路。贊 1評論浏覽 142 - [浏覽需要 0 积分] 发布于2025-05-17 10:35:08贊 1評論浏覽 126
- [浏覽需要 0 积分] 发布于2025-05-17 10:28:42
《MoE環遊記:5、均勻分布的反思》
https://kexue.fm/archives/10945 本文介绍了 MoE 的 Shared Expert 和 Fine-Grained Expert 策略,并指出它们某种程度上都体现了负载均衡的非最优性。贊 1評論浏覽 116 - [浏覽需要 0 积分] 发布于2025-04-26 21:52:17贊 2評論浏覽 127
- [浏覽需要 0 积分] 发布于2025-04-18 19:50:50
《Transformer升級之路:19、第二類旋轉位置編碼》
https://kexue.fm/archives/10862 本文围绕着“RoPE 可以加在 V 上吗”进行展开,讨论了 RoPE 的第二种用法。贊 2評論浏覽 156 - [浏覽需要 0 积分] 发布于2025-04-18 19:50:03
《矩阵的有效秩(Effective Rank)》
https://kexue.fm/archives/10847 本文探讨了矩阵的有效秩(Effective Rank)概念,它是线性代数中矩阵的秩(Rank)概念在数值计算方面的延伸,能够更有效地度量矩阵的本质维度。贊 2評論浏覽 165 - [浏覽需要 0 积分] 发布于2025-03-28 21:43:09
《MoE環遊記:4、難處應該多投入》
https://kexue.fm/archives/10815 本文提出了一种动态选择 Expert 数目的 MoE 设计,主要思想是对 Loss-Free 的 MoE 形式稍作修改,然后修改 Bias 项的更新规则,利用它的额外自由度来同时实现负载均衡和...贊 2評論浏覽 189 - [浏覽需要 0 积分] 发布于2025-03-24 11:31:24
《高階muP:更簡明但更高明的譜條件縮放》
https://kexue.fm/archives/10795 这篇文章介绍了 muP 的升级版——谱条件,它从谱范数相关的不等式切入来分析模型稳定训练的条件,以一种更便捷的方式得到了比 muP 更丰富的结果。贊 2評論浏覽 206 - [浏覽需要 0 积分] 发布于2025-03-13 18:12:04
《初探muP:超參數的跨模型尺度遷移規律》
https://kexue.fm/archives/10770 本文以尽可能简明清晰的方式介绍了 muP(Maximal Update Parametrization),这是旨在研究超参数跨模型尺度的迁移规律的工作。基于 muP,我们可以在小模型上以相对较...贊 2評論浏覽 230 - [浏覽需要 0 积分] 发布于2025-03-05 11:34:22
《MoE環遊記:3、換個思路來分配》
https://kexue.fm/archives/10757 本文介绍了 MoE 负载均衡问题的 Loss-Free 方法,它由 DeepSeek 提出,其核心在于通过引入一个简单的偏置项来实现负载均衡。本文进一步思考了它与 Aux Loss 的联系,以...贊 2評論浏覽 353 - [浏覽需要 0 积分] 发布于2025-02-27 15:45:00
《Muon續集:爲什麽我們選擇嘗試Muon?》
https://kexue.fm/archives/10739 本文介绍了我们在 Muon 优化器上的一次较大规模实践(Moonlight),并分享了我们对 Muon 优化器的最新思考。贊 2評論浏覽 395 - [浏覽需要 0 积分] 发布于2025-02-21 11:25:16贊 2評論浏覽 325
- [浏覽需要 0 积分] 发布于2025-02-14 16:07:25
《生成擴散模型漫談(二十九):用DDPM來離散編碼》
https://kexue.fm/archives/10711 本文介绍了扩散模型的一个新脑洞,它将 DDPM 生成过程中的噪声限制在一个有限的集合上,并结合条件生成的思路,将 DDPM 免训练地变成一个类似 VQ-VAE 的离散自编码器。贊 2評論浏覽 526 - [浏覽需要 0 积分] 发布于2025-02-08 16:18:01
《MoE環遊記:1、從幾何意義出發》
https://kexue.fm/archives/10699 本文从 Dense 模型的最佳逼近出发来推导和理解 MoE,得到了一种特定的 MoE 形式,它比现有 MoE 多了一个 Normalize 步骤,但能让 MoE 的几何意义更加明显。当然,不管...贊 2評論浏覽 604 - [浏覽需要 0 积分] 发布于2025-01-17 15:43:22贊 2評論浏覽 724
- [浏覽需要 0 积分] 发布于2025-01-06 17:00:09贊 2評論浏覽 401
- [浏覽需要 0 积分] 发布于2024-12-25 11:25:15贊 2評論浏覽 597