“混合专家”架构是内存需求的终极买点-墙外贴吧

华尔街完全忽视了最新的AI架构变化如何严重地倾向于使用RAM的内存与计算比率。每个人都认为AI是关于Nvidia GPU和纯数学能力，但最新的模型正在使用一个叫做混合专家（Mixture of Experts，MoE）的架构。相比之下，一个MoE模型被分成成百上千个专门的“小脑”。当你问它一个问题时，一个数字交通警察只会唤醒需要的专家，而其他人都保持睡眠状态。这使得计算成本保持平稳，关键的是允许公司构建和运行比以往任何时候都更大、更聪明的模型。

但是，这个架构有一个巨大的陷阱，使得Micron成为最终的牛市案例：这个架构解锁了这些巨型模型，导致AI的物理大小爆炸，导致每单位计算所需的内存容量剧烈增加。即使有90%以上的专家在任何给定时刻都在睡眠状态，整个专家库都必须在24/7的高带宽内存（HBM）中加载，因为系统永远不知道下一个词需要哪个专家。另外，如果GPU没有足够的RAM容量，你就必须将模型分散在多个芯片上。这会触发大量的通信瓶颈，因为数据不断地在GPU之间飞来飞去，严重地降低了它们的效率和利用率。购买具有巨大个人RAM容量的芯片可以让数据中心将模型局部化，切断了之间的GPU交流，显著提高了硬件利用率。我们进入了一个世界，AI的扩展不再受限于芯片可以做数学运算的速度，而是受物理VRAM容量的限制。如果AI的扩展继续下去，混合专家模型的需求将导致HBM和高容量DRAM的需求远远超过任何人预测的。如果这个AI的扩展继续下去，Micron将成为最大的受益者。

“混合专家”架构是内存需求的终极买点

评论 (0)

推荐帖子