作为一名在机构金融领域为 AI 基础设施的创始人,我经常与采用 AI 的团队进行交流。

在过去几个月中,我注意到了一种明显的模式。虽然每个公司的部署过程都非常独特,但基本的瓶颈阻止了真正的运营杠杆几乎都是普遍的。

以下是实际上在生产环境中出现的问题:

1)分析师每周花费最好的时间只是在移动数据。

一个典型的分析师将 15 个名称分配给了他们,周一早上 2 小时聚合数据到一个地方。

由于这是一个没有差异化的工作,人们认为 AI 应该轻松地接管。然而,实际情况是,虽然通用模型在生成文本摘要方面表现出色,但自动数据提取仍然是一个巨大的障碍,因为确定性的金融模型拒绝了 LLM 的概率性质。

2)失败模式是完全静默的。

我们已经到了一个地步,AI 在金融领域的幻觉不再那么戏剧化了。一个模型很少会创造一个假公司。然而,实际的失败是更加微妙的,而且在捕捉方面更为困难。

一个短语“2024 年 Q3 收入为 42 亿美元”几乎与“2023 年 Q3 收入为 42 亿美元”相同。因为它们几乎占据了相同的坐标在向量空间中,标准模型会频繁地检索更老的数字并以完全自信的态度返回。一个匆忙的分析师将其纳入其中,错误直到后来才会暴露。

分类问题类似地起作用。通用 LLMs 基于语言概率而不是rigid 的会计规则,因此经常混淆标准 GAAP 指标与自定义非 GAAP 数字。结果,几个我认识的人已经悄悄地恢复了这些特定任务的手动执行。

3)流利的文本在没有严格引用时毫无价值。

一个生成的摘要在没有数字无法立即和直接验证时毫无价值。每一个声称都必须追踪到一个具体的来源文档/页码/段落。没有不可变的审计跟踪的 AI 输出显然是一项重大合规风险。

4)每当一名高级分析师离职时,时钟就会重置。

显而易见的损失是覆盖连续性,但更危险的损失涉及到所有未写的上下文。

因此,新分析师到达一个工作台,经常重复已经存在于公司内部的研究仅仅因为他们缺乏一种表面它的方法。这是一个数据架构失败,沉默地和不可见地每次专业人士离职时都会加剧。

本质上来说,这些瓶颈指向一个方向,那就是基础设施。生成文本一直是容易的部分。现在真正重要的是底层的上下文,而那些真正获得杠杆的公司正在悄悄地建立架构,而其他人则等待一个更好的模型来解决它。