在Custom Rust CA/SDF引擎(即下落的沙子模拟、元球)的基础上,创建一个类似于破坏模式的游戏。目标是在上屏幕的“竞技场”中生成多种世界,具有多种材料和生态环境,并在下屏幕留出空间作为玩家区域。

第二张图片是联系表格在睡前看起来的样子(~T150)。第三张图片是AI生成的“北极星”愿望,旨在为AI提供一个目标来努力。然而,预计不会达到1:1,因为引擎不是为了绘制而设计的。它更适合作为指导和定位方面。每隔一段时间,我会根据输出的捆绑包来重新生成这个。

不是完全自动化的。进行了220次迭代的循环,分析截图,阅读设计文档,并制定改进计划。测试改进并在每个步骤上提交或拒绝。每隔~50次就停止一下,进行一次回顾,并调整捆绑包并运行几次手动提示。

我不得不暂停~50次迭代并进行一次进度评估。0-50,没能正确构建工具,正在执行CPU评估而不是GPU评估,导致评估不准确。

停止修复CPU与GPU评估(并在第一步就拆除CPU选项)

50-100:在GPU评估上,但过度编写。扩展了设计语言以允许线条、圆圈和正方形,并将它们放置,这不是我想要的。

停止修复硬编码的工具并移除它们,并设置防护措施以防止它们返回。

100-150:编写工具基本上被拆除,但进展缓慢,因为设计级别过于复杂。

停止重新评估生成的级别,并将其从~2000+指令缩减到300(级别由一个Rust DSL生成一个图形,编译为微码并在GPU上执行)。还要重新设计语言和耦合,以便代理有更多的自由迭代而不会陷入困境。即在OG模板中,直接指向材料,例如石英、煤炭、沙子。但是,我添加了主题间接性,例如ROCK_0 = Basalt,ROCK_10 = Coal。这样可以主题化生成,而不会被语义锁定到材料。

150-220:这一次进展非常快。代理有自由迭代,不会设计自己进入困境。它添加了大量生态环境,细化了测试捆绑包和输出。循环还会进行回顾并在迭代过程中更新自己。

成本上,可能花费了我~50%的$200 codex计划周额度在3天内。下次我一定会设置更多的agentic循环式提示,来运行、评估和迭代。可能如果我每个提示都做了,可能会更进一步,但我怀疑我甚至不会达到我的配额,如果我那样做,但这样我就可以让它在8小时的自动模式下运行,只需偶尔看一下并干预它如果它没有趋势。