该项目重点是创建 Unity HDRP 中的完全本地、无互联网的 AI NPC 交互循环,利用 Speech-to-Text(STT)、本地大型语言模型(LLM)和 Text-to-Speech(TTS)管道的组合,完全在用户的硬件上运行。

技术架构 & 堆栈

  • 图形管道:Unity HDRP(高定义渲染管道)用于高保真体积光照和大气恐怖环境。
  • 内置引擎 LLM 执行:由 Unity Sentis / LLMUnity 提供,用于在 GPU 上加载并运行一个 Qwen 3.5 4B 参数模型,完全绕过外部 API 依赖或云延迟。
  • 声音循环:实时麦克风输入处理通过本地 STT 解决方案,直接输入模型上下文,生成令牌流输出到本地 TTS 系统,生成响应 NPC 对话。

https://reddit.com/link/1tz3ntp/video/6w9woxglus5h1/player

优化 & 遇到的挑战

将 Unity HDRP 的重型 VRAM footprint 与 4 亿参数的本地模型结合,会出现显著的硬件瓶颈。平衡 GPU 内存分配,既要支持高分辨率纹理流,亦要支持模型层次,需要对上下文长度和量化设置进行细致的优化,以防止标准消费者硬件上内存不足错误。

希望与 Unity 开发者展开讨论:

  1. 在 Sentis 中,如何对 VRAM 分配进行最佳实践,特别是在运行重量级渲染管道如 HDRP 时?
  2. 在本地声音循环中,如何处理提示注入或边界限制,保持 LLM 在恐怖 NPC 人设内而不导致上下文膨胀?
  3. 是否有更优化的轻量级本地 TTS 替代方案,可以与 Unity 的 AudioSource 和平滑整合,不会阻塞主线程?