我的论文认为,大多数AI投资仍然集中在能力(例如GPU、模型提供商、超级计算机、数据中心、电源和冷却)上。但是,下一个主要的AI主题可能是成本控制。

人工智能的原始经济学说(也是超级计算机将来会弥补其巨大的初始投资的唯一方式)是让企业使用它来节省钱并提高生产力。但是,当公司在规模上部署AI时,他们将面临成本经济学的突然醒悟。

最近,我看到的企业AI成本正在失控,甚至超过了它们所期望的替换工人的成本。口头上,我们看到公司正在削减或激进地切换到更便宜、非前沿模型(或开源替代品)以节省成本。

当AI从试验到生产时,企业发现真正的瓶颈不是模型质量,而是经济学:

  • 高检索成本Token-heavy agent workflows
  • 编码代理计算使用的规模增长指数
  • 公共云和API成本在规模上
  • 差的成本控制和缺乏ROI可见性
  • 对敏感工作负载的需要私有/混合检索

基于我的初始筛选,我发现以下内容:

Token Reduction / RAG / Better Context:通过使用检索增强生成(RAG)和目标向量搜索,公司将LLMs提供高度相关的数据片段,而不是将大量文档dump到上下文窗口中,从而大大降低API令牌消耗。

  • ESTC - Elastic: Elastic嵌入在企业搜索中。他们的向量搜索能力使LLMs只吞咽必要的上下文。这种做法降低令牌使用率,同时提高输出准确性,使其成为优化AI上下文架构的直接受益者。
  • Alternative: MDB - MongoDB: MongoDB的Atlas向量搜索允许开发者在最流行的现代NoSQL数据库上构建AI应用,而不必移动数据。通过高效查询特定向量,它们可以最小化上下文窗口膨胀,导致检索成本上升。它们是不利可行的,市场定价MDB纯粹基于其前景的P/S倍数。它根据其在现代数据库层中的巨大总地址空间来获取高增长估值。

模型路由 / AI Gateways:AI网关起到交通警察的作用,仅将简单查询路由到便宜快的模型,并只将复杂任务发送到昂贵的前沿模型,以优化每个查询的成本。

  • FFIV - F5: F5的负载均衡的遗产正在直接转变为AI网关。通过坐在企业应用和LLM API之间,F5处理模型路由、速率限制和安全治理,帮助组织对开发者API花费进行有效的控制。

私有AI / 混合检索:在公共云费用和不可预测的每令牌API加成中避免高容量或高度敏感的检索工作负载。

  • NTNX - Nutanix: Nutanix为混合云环境提供控制平面。他们的“GPT-in-a-box”和私有AI基础设施使企业能够在标准化硬件上部署开源LLMs,移除AI成本从不可预测的变动OPEX转移到可预测的初始投资。

我排除了Cloudflare和Datadog等其他公司,因为它们变得太昂贵。

特别感谢那些在企业IT、云、数据工程、AI应用、可观察性或FinOps领域有经验的人士的反馈。

这些是否是企业将使用的成本控制方法?哪种方法公司将花费最多的钱?还有其他公司可能受益于AI成本控制吗?