Reddit 首席执行官 Steve Huffman 在 Q2 盈利电话会议上说:

"我认为我们有了一个这样的理解,尤其是在数据许可协议方面…… 如何对于 AI 或 LLMs 如我们所知以及下一代搜索来说 Reddit 是必不可少的。"

Reddit 我最担心的是他们正在通过许可协议放弃自身独特优势。短期利益换取长期价值。

以下是我的原因。

我会保持简短,因为 discuss 模型训练是一个独立的话题。

Llm 使用可在网络上获得的相同数据来为您提供答案。Common Crawl 就是其中一种方法,任何人都可以使用它,包含来自开放网络的所有检索数据,可以训练以改善模型。但是问题是它包含各种文字,包括种族主义、 homophobic 等不准确和低质量的内容。

所以 LLM 喜欢 Reddit。它拥有大量的第一方(即由 Reddit 所有)数据,其中,真正的用户为其他用户提供高质量的内容。OpenAI 授权此数据,以训练其模型,以此来确定 “好看是什么样”的答案。这样, 提供给您的答案,就与真正的 Reddit 用户提供的答案匹配。

问题是什么?

Reddit 继续这样的道路,如果 OpenAI 或其他 LLM 将已许可的数据从 Reddit 中提取,并将其放入模型中, 那么 Reddit 就无法继续利用。比如说,您的汽车发出一段古怪声音,而您求助于 GPT 进行诊断ChatGpt 可以从与 Reddit 相关的子频道中提取高质量数据,然后从汽车维修论坛中跨引用其他来源,并为您提供与其他 Reddit 用户相同的回答。

这种情况并不离谱,因为这是已经存在的数据。

如果 Reddit 继续沿着这种路线,ChatGpt 就可以在几年过后(最多两个年头)为您提供精确的回答,您就可以不必在收到分秒必争的回答时求助他人了。

什么我都遗漏了吗? Reddit 的任何一大股民?

在估值的视角看来,看起来很棒。