带带东百狗 发表于 2025-1-29 21:20:56

&#128518computer science懂哥进,这下是不是连技术改进都没了

https://img.dota2.me/images/2025/01/29/3793673d175cfe9736efa98f9766abf6.jpg
https://img.dota2.me/images/2025/01/29/405ee9bd98201e3371864fd9dc69c646.jpg

带带东百狗 发表于 2025-1-29 21:21:58

chatgpt的回答是否丁真。我不知道cs领域,在arxiv上还没peer review的也能算发了文章吗

格里高里 发表于 2025-1-29 21:25:23

你猜猜为什么google不用MoE,是他们不喜欢吗

带带东百狗 发表于 2025-1-29 21:26:07

优化了多少,10%?

格里高里 发表于 2025-1-29 21:26:48

除fp8外,训练方面的其他贡献主要是基于前人工作的改良,而非革命性的。

比如在MoE的路由函数上加入一个非零的极小偏置,以避免某些权重归零,坍缩MoE;
又或者是将移动平均值出存在CPU缓存中,减少通信开销;
模型增加推理上下文长度(Context Extension)的技巧,其实也来自2023年一篇名为YaRN的华人文章。这一点相信业内同行均有使用;
DualPipe设计非常精妙,但具备LLM训练能力的各家大厂应该都有类似并行框架,比如ZeRO。只不过在Bubble Time 和 Expert Parallelism上没有做的像DeepSeek一样这么精湛。


让生科背景的人理解工程是什么意思确实有点难度,我放弃了。

格里高里 发表于 2025-1-29 21:27:51

格里高里 发表于 2025-1-29 21:26
除fp8外,训练方面的其他贡献主要是基于前人工作的改良,而非革命性的。

比如在MoE的路由函数上加入一个非 ...

而且宁这打滚功力远近闻名,是我犯贱想给你解释清楚了。

刁迈乎 发表于 2025-1-30 11:14:32

除了&#128375️我还没见过会标榜”全栈自研”的,就像除了豪哥没有会标榜全过程的{:48_1914:}
页: [1]
查看完整版本: &#128518computer science懂哥进,这下是不是连技术改进都没了