华尔街完全忽视了最新的AI架构变化如何严重地倾向于使用RAM的内存与计算比率。每个人都认为AI是关于Nvidia GPU和纯数学能力,但最新的模型正在使用一个叫做混合专家(Mixture of Experts,MoE)的架构。相比之下,一个MoE模型被分成成百上千个专门的“小脑”。当你问它一个问题时,一个数字交通警察只会唤醒需要的专家,而其他人都保持睡眠状态。这使得计算成本保持平稳,关键的是允许公司构建和运行比以往任何时候都更大、更聪明的模型。
但是,这个架构有一个巨大的陷阱,使得Micron成为最终的牛市案例:这个架构解锁了这些巨型模型,导致AI的物理大小爆炸,导致每单位计算所需的内存容量剧烈增加。即使有90%以上的专家在任何给定时刻都在睡眠状态,整个专家库都必须在24/7的高带宽内存(HBM)中加载,因为系统永远不知道下一个词需要哪个专家。另外,如果GPU没有足够的RAM容量,你就必须将模型分散在多个芯片上。这会触发大量的通信瓶颈,因为数据不断地在GPU之间飞来飞去,严重地降低了它们的效率和利用率。购买具有巨大个人RAM容量的芯片可以让数据中心将模型局部化,切断了之间的GPU交流,显著提高了硬件利用率。我们进入了一个世界,AI的扩展不再受限于芯片可以做数学运算的速度,而是受物理VRAM容量的限制。如果AI的扩展继续下去,混合专家模型的需求将导致HBM和高容量DRAM的需求远远超过任何人预测的。如果这个AI的扩展继续下去,Micron将成为最大的受益者。
评论 (0)