将Gated Local LLM（Qwen 3.5 4B）与Unity HDRP中的实时STT/TTS集成，用于无网络的语音控制恐怖游戏-墙外贴吧

该项目重点是创建 Unity HDRP 中的完全本地、无互联网的 AI NPC 交互循环，利用 Speech-to-Text（STT）、本地大型语言模型（LLM）和 Text-to-Speech（TTS）管道的组合，完全在用户的硬件上运行。

技术架构 & 堆栈

图形管道：Unity HDRP（高定义渲染管道）用于高保真体积光照和大气恐怖环境。
内置引擎 LLM 执行：由 Unity Sentis / LLMUnity 提供，用于在 GPU 上加载并运行一个 Qwen 3.5 4B 参数模型，完全绕过外部 API 依赖或云延迟。
声音循环：实时麦克风输入处理通过本地 STT 解决方案，直接输入模型上下文，生成令牌流输出到本地 TTS 系统，生成响应 NPC 对话。

https://reddit.com/link/1tz3ntp/video/6w9woxglus5h1/player

优化 & 遇到的挑战

将 Unity HDRP 的重型 VRAM footprint 与 4 亿参数的本地模型结合，会出现显著的硬件瓶颈。平衡 GPU 内存分配，既要支持高分辨率纹理流，亦要支持模型层次，需要对上下文长度和量化设置进行细致的优化，以防止标准消费者硬件上内存不足错误。

希望与 Unity 开发者展开讨论：

将Gated Local LLM（Qwen 3.5 4B）与Unity HDRP中的实时STT/TTS集成，用于无网络的语音控制恐怖游戏