LLM训练和推理效率极其低下。很容易计算出人类和LLM学习一种语言流利所需的token数量。LLM需要比人类多约150倍的token。推理效率差距的估计值与此类似。内存使用也是同样的故事。如果你问一个ML研究者为什么训练LLM需要比人类多那么多token,或者为什么200KB的文本需要10GB的注意力状态在RAM中,他们会说:“我们不知道”。硬件资源丰富的大公司不知道也不在乎。他们认为他们的更大的硬件预算会将所有其他公司都推出市场。这整个CAPEX泡沫建立在一个已经被证明是错误的假设上。回想一下Deepseek吗?一篇论文表明可以将模型效率提高4倍,几乎引发了市场崩溃。有人会找到一种方法来训练和推理语言模型100倍快或使用100倍少的内存。或同时两者。这些数据中心将在一夜之间变得无价值。有数十万亿美元的资金依赖于这样的假设:没有人会发现解决方案。比曼哈顿工程更多的资金。大实验室试图建立一个“硬件护城河”。而这正是1980年代人们发现替代主机的方法时被摧毁的护城河。这个让我想起了dotcom泡沫。大家都知道网络将是变革性的。然而,90%的投资者都押注了错误的马。大实验室有利益在于不想让模型变得更高效。硬件成本是他们的整个护城河。某个新公司会找到解决方案,所有的大型科技公司都会陷入混乱。