我正在写一篇系统评估论文,探讨大语言模型是否能作为可靠的、受约束的动作生成器,用于瞬息万变的游戏决策。
- 给定具有定义参数的结构化游戏状态,LLM是否可以在受限的模式中产生有效的参数更新?
评估主要围绕五个实用子问题:
- 格式一致性:LLM是否能够每次生成完美一致的机器可读性输出格式?
- 模式遵从性:LLM是否保持在预定义的动作模式中,包括允许的动作类型、变量和值范围?
- 上下文适当性:LLM是否能够根据常识、游戏逻辑、因果可能性和环境相关性选择合理的动作?
- 理由-动作对应性:所陈述的理由是否实际支持和证明所选的动作?
- 人类判断对应性:LLM的选择动作是否与专家人类评估者的选择动作高度一致?
我测试了大约1,400个场景,涵盖多个游戏类型(奇幻RPG、科幻RPG、4X策略游戏),使用本地开放模型(8亿个类别)和闭API模型(GPT-5、Claude)。核心贡献是设计了围绕实用性可靠性问题的五层评估框架,用于游戏引擎集成。这是计划中的六篇论文系列中的第一篇。接下来的两篇评价本地开放权重模型的在线部署策略(精细调整、蒸馏、引导式推敲),并探讨优化策略。这份系列论文接着进入动作层超出,就进入了剧情生成、出现在叙述中的记忆系统和最终一个统一框架。
我正在开源大部分我们的代码,并积极寻找有兴趣合作的人。目前,我正在与三个同事一起工作。如果您感興趣,可以来信,并将会在论文中作为贡献者。
评论 (0)