&#128518computer science懂哥进，这下是不是连技术改进都没了

带带东百狗 发表于 2025-1-29 21:20:56

https://img.dota2.me/images/2025/01/29/3793673d175cfe9736efa98f9766abf6.jpg
https://img.dota2.me/images/2025/01/29/405ee9bd98201e3371864fd9dc69c646.jpg

带带东百狗 发表于 2025-1-29 21:21:58

chatgpt的回答是否丁真。我不知道cs领域，在arxiv上还没peer review的也能算发了文章吗

格里高里 发表于 2025-1-29 21:25:23

你猜猜为什么google不用MoE，是他们不喜欢吗

带带东百狗 发表于 2025-1-29 21:26:07

优化了多少，10%？

格里高里 发表于 2025-1-29 21:26:48

除fp8外，训练方面的其他贡献主要是基于前人工作的改良，而非革命性的。

比如在MoE的路由函数上加入一个非零的极小偏置，以避免某些权重归零，坍缩MoE；
又或者是将移动平均值出存在CPU缓存中，减少通信开销；
模型增加推理上下文长度（Context Extension）的技巧，其实也来自2023年一篇名为YaRN的华人文章。这一点相信业内同行均有使用；
DualPipe设计非常精妙，但具备LLM训练能力的各家大厂应该都有类似并行框架，比如ZeRO。只不过在Bubble Time 和 Expert Parallelism上没有做的像DeepSeek一样这么精湛。

让生科背景的人理解工程是什么意思确实有点难度，我放弃了。

格里高里 发表于 2025-1-29 21:27:51

格里高里发表于 2025-1-29 21:26
除fp8外，训练方面的其他贡献主要是基于前人工作的改良，而非革命性的。

比如在MoE的路由函数上加入一个非 ...

而且宁这打滚功力远近闻名，是我犯贱想给你解释清楚了。

刁迈乎 发表于 2025-1-30 11:14:32

除了&#128375️我还没见过会标榜”全栈自研”的，就像除了豪哥没有会标榜全过程的{:48_1914:}

页: [1]

哥谭's Archiver

&#128518computer science懂哥进，这下是不是连技术改进都没了