撰写一系列研究论文 - 开放贡献者参与方法论和测试-墙外贴吧

我正在写一篇系统评估论文，探讨大语言模型是否能作为可靠的、受约束的动作生成器，用于瞬息万变的游戏决策。

给定具有定义参数的结构化游戏状态，LLM是否可以在受限的模式中产生有效的参数更新？

评估主要围绕五个实用子问题：

格式一致性:LLM是否能够每次生成完美一致的机器可读性输出格式？
模式遵从性:LLM是否保持在预定义的动作模式中，包括允许的动作类型、变量和值范围？
上下文适当性:LLM是否能够根据常识、游戏逻辑、因果可能性和环境相关性选择合理的动作？
理由-动作对应性:所陈述的理由是否实际支持和证明所选的动作？
人类判断对应性：LLM的选择动作是否与专家人类评估者的选择动作高度一致？

我测试了大约1,400个场景，涵盖多个游戏类型（奇幻RPG、科幻RPG、4X策略游戏），使用本地开放模型（8亿个类别）和闭API模型（GPT-5、Claude）。核心贡献是设计了围绕实用性可靠性问题的五层评估框架，用于游戏引擎集成。这是计划中的六篇论文系列中的第一篇。接下来的两篇评价本地开放权重模型的在线部署策略（精细调整、蒸馏、引导式推敲），并探讨优化策略。这份系列论文接着进入动作层超出，就进入了剧情生成、出现在叙述中的记忆系统和最终一个统一框架。

我正在开源大部分我们的代码，并积极寻找有兴趣合作的人。目前，我正在与三个同事一起工作。如果您感興趣，可以来信，并将会在论文中作为贡献者。

撰写一系列研究论文 - 开放贡献者参与方法论和测试

评论 (0)

推荐帖子