本研究旨在评估不同AI模型在游戏叙事中的表现。这些模型主要用于生成NPC情绪的变化、对话线和关系评分等方面的游戏变量。研究者使用100-230个场景来评估模型的准确性,评分标准分为四个-tier(精确匹配、模糊解析、LLM评判和有效答案)。研究结果表明,大多数模型在有效答案方面表现不佳,但当考虑到不同结果的有效性时,其有效答案率则有了显著提高。
研究者还将模型部署在云侧和边缘侧进行了比较,结果显示,边缘侧的模型不仅可以高效运行,还可以有效降低延迟并且保持数据隐私。与此同时,研究者发现基于Groq的推理硬件可以对比部署在云服务端的模型,降低延迟,并保持相同的结果质量。
总的来说,研究本身并不仅限于游戏叙事,这研究有可能被应用于其他领域。
评论 (0)