我测试了15+种模型（本地和云），并在RPG游戏任务（游戏变量）中评估了模型。本地的8B模型比你想象的更接近GPT-5.2。-墙外贴吧

本研究旨在评估不同AI模型在游戏叙事中的表现。这些模型主要用于生成NPC情绪的变化、对话线和关系评分等方面的游戏变量。研究者使用100-230个场景来评估模型的准确性，评分标准分为四个-tier（精确匹配、模糊解析、LLM评判和有效答案）。研究结果表明，大多数模型在有效答案方面表现不佳，但当考虑到不同结果的有效性时，其有效答案率则有了显著提高。

研究者还将模型部署在云侧和边缘侧进行了比较，结果显示，边缘侧的模型不仅可以高效运行，还可以有效降低延迟并且保持数据隐私。与此同时，研究者发现基于Groq的推理硬件可以对比部署在云服务端的模型，降低延迟，并保持相同的结果质量。

总的来说，研究本身并不仅限于游戏叙事，这研究有可能被应用于其他领域。