我一直在尝试将一个LLM作为agents在3D游戏设置中的“大脑”。目标是让LLM实时地指导所有方面的行为,包括在环境中表现和对话。在这一点上,LLM并不太适合,推理速度较慢,这会影响代理反应性,并且将实时状态和事件转换成文本是一个繁琐的过程。尽管如此,我已经花了很长时间来处理这个问题了,并且完成了我称之为第2版LLM驱动AI代理的任务。 以下 是我制作的一个演示视频。在视频中,我作为人类角色,使用实时语音识别进行交互。机器人完全由LLM控制,其行为以及发言。

一些亮点:

  • 我使用Unity构建了该项目
  • 我最初使用的是本地LLM(Gemma3-4B),但是进展很慢,然后我切换到核心模型(Gemini3-flash)后发现问题根本不再存在。代理的行为变得更加智能。这只是一个概念验证,没有考虑成本因素。
  • LLM在利用一个离散的行为空间(类似于steering behaviors)创建一个短期计划。在受到环境刺激时,可以随时干扰计划
  • 语音识别和语音合成都使用他们自己的神经网络,但并不是很消耗资源

在游戏玩法上,我现在仍然保持简单,以便工作出该系统的bugs。然而,对于潜在改进方面的想法,并不是很多了。有关游戏设计和剧情元素中的架构这一底层设计元素,也有很多想法。我认为这已经很顺利了。上面的视频实际上是第一次尝试,代理表现良好。 我经常有20分钟的.sessions,以及有趣的交互和对话。

我真的很需要你的反馈信息。那么,玩法是否有足够吸引的?是否有人尝试类似的项目?