我训练了一个 AI 使用强化学习来速通《超级马里奥兄弟》——在超过 600 万次死亡后 😅
代理最初完全不懂:
- 碰到第一个乌龟怪
- 掉进坑洞
- 卡在管道旁
随着时间推移,它慢慢学会了:
- 移动时机
- 躲避敌人
- 跳跃精度
- 速度优化
有趣的是,一些“速通玩家式”的行为在训练过程中自然出现:
- 保持动量
- 减少犹豫
- 优化跳跃时机
训练使用了自定义的强化学习框架,结合了帧堆叠和时间建模。看到它从随机移动到熟练游戏的过程,真的算是项目中最酷的部分之一。
我很想得到以下方向的反馈:
- 强化学习
- 游戏 AI
- 模仿学习
- 涌现行为
评论 (0)