我开始建立声音控制系统,以在我的框架中部署它。目标是仅凭声音就能够控制复杂的游戏(例如大亨类游戏、策略游戏、模拟指挥类游戏)。
我将在我的博客上记录这一旅程:https://damotr.dev/2026/04/10/voice-control-journey-begins/
然而,目前我正在探索这样的系统如何向用户提醒他们有哪些选项。控制按钮、滑动条和对象的命令层次结构比较复杂。
我找到的大多数材料(主要创建于2019年之后)都在处理非确定性的聊天机器人。然而,我有一个需要严格规则的系统。
使用文本文本LMM(大语言模型)将自然语言转换为命令(至少目前)不高效,并且无法解决“玩家不知道该如何询问”的问题。
有没有人在同类项目中工作过?
目前我只能设计出所谓的“三层方法”。也就是说:
- “说出的就是你看到的”(例如按钮名称、对象名称)
- 直接命令(例如选择武器、目标、动作) - 这是核心问题
- 输入模式(例如重命名对象) - 我目前使用了NATO/海军规则
评论 (0)