我训练了一个 AI 使用强化学习来速通《超级马里奥兄弟》——在超过 600 万次死亡后 😅

代理最初完全不懂:

  • 碰到第一个乌龟怪
  • 掉进坑洞
  • 卡在管道旁

随着时间推移,它慢慢学会了:

  • 移动时机
  • 躲避敌人
  • 跳跃精度
  • 速度优化

有趣的是,一些“速通玩家式”的行为在训练过程中自然出现:

  • 保持动量
  • 减少犹豫
  • 优化跳跃时机

训练使用了自定义的强化学习框架,结合了帧堆叠和时间建模。看到它从随机移动到熟练游戏的过程,真的算是项目中最酷的部分之一。

我很想得到以下方向的反馈:

  • 强化学习
  • 游戏 AI
  • 模仿学习
  • 涌现行为