人工智能成本控制公司下一个人工智能基础设施风暴？合理估值的重估潜力。-墙外贴吧

我的论文认为，大多数AI投资仍然集中在能力（例如GPU、模型提供商、超级计算机、数据中心、电源和冷却）上。但是，下一个主要的AI主题可能是成本控制。

人工智能的原始经济学说（也是超级计算机将来会弥补其巨大的初始投资的唯一方式）是让企业使用它来节省钱并提高生产力。但是，当公司在规模上部署AI时，他们将面临成本经济学的突然醒悟。

最近，我看到的企业AI成本正在失控，甚至超过了它们所期望的替换工人的成本。口头上，我们看到公司正在削减或激进地切换到更便宜、非前沿模型（或开源替代品）以节省成本。

当AI从试验到生产时，企业发现真正的瓶颈不是模型质量，而是经济学：

基于我的初始筛选，我发现以下内容：

Token Reduction / RAG / Better Context：通过使用检索增强生成（RAG）和目标向量搜索，公司将LLMs提供高度相关的数据片段，而不是将大量文档dump到上下文窗口中，从而大大降低API令牌消耗。

ESTC - Elastic: Elastic嵌入在企业搜索中。他们的向量搜索能力使LLMs只吞咽必要的上下文。这种做法降低令牌使用率，同时提高输出准确性，使其成为优化AI上下文架构的直接受益者。
Alternative: MDB - MongoDB: MongoDB的Atlas向量搜索允许开发者在最流行的现代NoSQL数据库上构建AI应用，而不必移动数据。通过高效查询特定向量，它们可以最小化上下文窗口膨胀，导致检索成本上升。它们是不利可行的，市场定价MDB纯粹基于其前景的P/S倍数。它根据其在现代数据库层中的巨大总地址空间来获取高增长估值。

模型路由 / AI Gateways：AI网关起到交通警察的作用，仅将简单查询路由到便宜快的模型，并只将复杂任务发送到昂贵的前沿模型，以优化每个查询的成本。

FFIV - F5: F5的负载均衡的遗产正在直接转变为AI网关。通过坐在企业应用和LLM API之间，F5处理模型路由、速率限制和安全治理，帮助组织对开发者API花费进行有效的控制。

私有AI / 混合检索：在公共云费用和不可预测的每令牌API加成中避免高容量或高度敏感的检索工作负载。

NTNX - Nutanix: Nutanix为混合云环境提供控制平面。他们的“GPT-in-a-box”和私有AI基础设施使企业能够在标准化硬件上部署开源LLMs，移除AI成本从不可预测的变动OPEX转移到可预测的初始投资。

我排除了Cloudflare和Datadog等其他公司，因为它们变得太昂贵。

特别感谢那些在企业IT、云、数据工程、AI应用、可观察性或FinOps领域有经验的人士的反馈。

这些是否是企业将使用的成本控制方法？哪种方法公司将花费最多的钱？还有其他公司可能受益于AI成本控制吗？

人工智能成本控制公司下一个人工智能基础设施风暴？合理估值的重估潜力。