Cerebras的炒作周期中,我认为有一点被遗漏了:Cerebras主要是一种LLM/生成式AI基础设施的故事,而不是一种普遍的“所有AI”芯片故事。这不是对Cerebras的批评。他们的片状接近是真正有趣的,针对大型模型训练和推理的设计是令人信服的。Cerebras自己的公开推理材料讨论的应用主要集中在开源LLM,如Llama、Qwen、GLM和GPT-OSS。推理指标以token每秒为单位表达,这是语言模型/生成推理框架,而不是机器人或工业控制框架。
什么样的AI计算?
然而,“AI计算”并不是一个统一的市场。LLM推理是AI计算的一个类别。机器人、无人驾驶汽车、无人机、工业控制、实时视觉、嵌入式感知、视频管道和感知融合系统是非常不同的AI计算类别。从Cerebras的材料来看,似乎他们的芯片集并没有针对LLM之后的系统,例如JEPA风格的世界模型或其他后转换器架构。这些系统并不是问“如何快速生成token?”他们经常关心功耗、边缘部署、耐用性、延迟确定性、摄像头/雷达/激光雷达集成、反馈环路、安全认证和实时物理控制。
Cerebras的CS-3消息框架系统围绕加速“最新的大型AI模型”,测试数据来自Llama 2、Falcon 40B、MPT-30B和多模态模型,通过token/秒样式吞吐量进行测量。
芯片层次结构
这也是硬件区别的重要性。专用ASIC通常是最窄的赌注:如果工作负载匹配芯片,他们可以非常高效,但这种高效性来自专门化。Cerebras似乎比单一用途的窄ASIC更广泛,但仍然集中在数据中心大型模型训练和推理。NVIDIA GPU,相反,较少专门化,但在AI工作负载中更广泛有用,包括LLM、视觉、机器人、模拟、自动化系统、边缘AI和工业应用。因此,问题不是仅仅是Cerebras是否“更好”或“更差”于NVIDIA。问题是我们在讨论的AI硬件市场的哪个方面。
挑战NVIDIA?
这就是为什么我认为人们应该小心地说Cerebras要“挑战NVIDIA”而不指定战斗场景。挑战NVIDIA在什么?高速度的LLM推理?大型模型训练?数据中心生成式AI工作负载?这是一种更可信的和具体的断言。Cerebras甚至发表并宣传了关于训练大型语言模型的工作,并且独立的基准测试文献也评估了Cerebras WSE在LLM训练和推理性能方面的表现。
必要的区别
重点不是Cerebras被炒作了。重点是它在AI的特定部分中非常重要,并且应该明确区分。Cerebras可能成为一个非常严肃的玩家LLM基础设施,尤其是如果市场继续奖励更快更便宜的LLM推理。但这并不意味着它在非LLM AI方面的位置相同。当前的炒作周期倾向于混淆“LLM”和一般的“AI”计算一起,这使得硬件讨论变得不那么有用和清晰。因此,最后,对Cerebras的投资看起来更像是在当前LLM基础设施上下注,而不是在未来AI的广泛形式上下注。它可能是一个好的下注,但人们应该了解它是什么样的下注。
评论 (0)