我认为一个区别正在在Cerebras的炒作周期中被遗忘了:Cerebras主要是一种LLM/生成AI基础设施故事,而不是一种普遍的“所有AI”芯片故事。这并不是对Cerebras的批评。他们的晶片尺寸方法确实很有趣,而且对于大型模型训练和推理,设计很有吸引力。Cerebras的公开推理材料主要讨论了以开源LLM(如Llama、Qwen、GLM和GPT-OSS)为中心的应用。推理指标以每秒令牌数为单位,基本上是语言模型/生成推理的框架,而不是机器人或工业控制的框架。

什么样的AI计算?
但是,“AI计算”并不是一个统一的市场。LLM推理是AI计算的一个类别。机器人、自主汽车、无人机、工业控制、实时视觉、嵌入式感知、视频流、和感知融合系统是非常不同的AI计算类别。从Cerebras的材料来看,似乎他们的芯片并没有优化为LLM之后的系统,如JEPA式的世界模型或其他后转换器架构。这些系统并不是简单地问,“我可以生成令牌的速度有多快?”他们经常关心功耗包围、边缘部署、耐用性、延迟确定性、摄像头/雷达/激光雷达集成、反馈环路、安全认证和实时物理控制。Cerebras的CS-3信息,与此相反,将系统框架为加速“最新的大型AI模型”,测试数据来自Llama 2、Falcon 40B、MPT-30B和多模式模型,通过令牌/秒样式吞吐量进行测量。

芯片等级
这也是硬件区别的关键。专用ASIC(应用特定集成电路)通常是[最窄的赌注](https://www.hilscher.com/service-support/glossary/application-specific-integrated-circuit):如果工作负载匹配芯片,他们可以非常高效,但这种高效性来自专门化。Cerebras似乎比一个狭窄的单用途ASIC更广泛,但仍然更加集中在数据中心的大型模型训练和推理。NVIDIA GPU,相反,不如专用ASIC但是对于AI工作负载,包括LLM、视觉、机器人、模拟、[自主系统](https://www.nvidia.com/en-us/industries/robotics/)、边缘AI和工业应用,更广泛有用。因此,问题不仅仅是Cerebras是否“更好”或“更差”于NVIDIA。问题是我们正在谈论的AI硬件市场的哪个部分。

挑战NVIDIA?
这就是为什么我认为人们应该小心说Cerebras会“挑战NVIDIA”而不具体说明。挑战NVIDIA是在什么方面?高速LLM推理?大型模型训练?数据中心生成AI工作负载?这是一个更可信和具体的说法。Cerebras甚至发表和推广了关于训练大语言模型的工作,并且独立的基准测试文献也评估了Cerebras WSE在LLM训练和推理性能方面。

必要的区别
重点不是Cerebras过度炒作。重点是它在AI中的特定位置,应该清晰。Cerebras可能成为一个非常严重的LLM基础设施玩家,尤其是如果市场继续奖励更快更便宜的LLM推理。但这并不意味着它在非LLM AI方面的位置相同。当前的炒作周期倾向于混淆“LLM”和广泛的“AI”计算在一起,这使得硬件讨论变得不那么有用和清晰。因此,最后,投资Cerebras看起来更像是在押注当前LLM基础设施,而不是押注AI的未来形态。它可能是一个好的押注,但人们应该了解它是什么样的押注。