我是一个独自开发的Fantasy Fantasy游戏。它是一个基于网络的持久多人游戏，融合了幻想运动（草拟阵容，设置阵容，玩一季度）和无人机RPG进度（一个在你未登录时运行的世界）。有十一栋房子，一支联盟，一座世界。预发布，正在公共构建阶段。

这个项目仅在单人规模存在的原因是，我停止尝试让一个模型做所有事情，开始为每个游戏层使用不同的AI工具，让每个工具做它擅长的事情。经过18个月，我对哪个工具在哪里胜过，哪个工具在哪里遇到瓶颈，以及我还需要手动控制的位置有了强烈的看法。

一个简要的堆栈

层	主要工具	为什么这个工具
代码	Claude (Sonnet，偶尔使用Opus)	在我的代码库中长期上下文推理最强。拒绝假想未安装API
艺术	Midjourney用于静态图像，Grok Imagine + 其他工具用于动画	MJ的`--sref`一致性是为什么我的11栋房子看起来像11栋房子，而不是11栋随机LoRAs的原因
游戏平衡	Perplexity作为调度者，Claude和ChatGPT作为实际推理者	我让调度者选择哪个模型回答哪个问题。更便宜，而且答案比单独使用任何模型都要好
传说扩展	Perplexity，再次 — 但一个完全不同的工作流	世界建构是迭代的。我写了一个神经元。模型扩展在它内

我将逐步介绍每个工具。

代码 — Claude

我在Replit中写所有代码，使用Claude作为配对。堆栈是TypeScript从头到尾 — React/Vite在前端，Node/Express + Drizzle/Postgres在后端 — 版本控制通过Replit的检查点和任务合并流程，而不是手动的GitHub工作流。

什么是有效的：

Claude是唯一一个我信任的模型来读取我的实际代码库之前回答的问题。当我粘贴三个或四个文件的上下文并问“哪里有Bug”，它不会虚构一个不存在的函数。ChatGPT和Gemini仍然经常（或至少曾经）这样做给我。
长时间的重构。可以将600行文件传递给Claude并要求它将特性提取到自己的模块中，它将返回一个应用的差异。第一次发生得干净时，我会坐在那里30秒，感到惊讶。
“解释你为什么做了那样的事情”的后续询问。其他大多数模型会告诉你它做了什么。Claude会告诉你它考虑到了什么，但没有做什么 — 直到最后一年才开始这样做。

哪里会遇到瓶颈：

游戏状态机。任何超过三个或四个并发状态分支就会失去线索。我已经开始异步任务并让它们等待前进，因为它们与不同的状态一起工作。
有任何时间敏感的数学（无人机积累，时间间隔，脱机补偿）。我自己写基本的数学，Claude写实现，我自己写测试，我们迭代。

成本现实：代码是我的最大的AI支出。我的总月度AI账单中，约70%用于此。

如果有人正在使用不同的代码模型作为他们的日常驾驶者，并且发现它在长上下文重构中同样好，我很想知道。一直以来，我都想尝试Cursor + 一个不同的后端进行两周的试验，但一直没有做，因为当前的设置已经工作了。一直在打扰我。

2. 艺术 — Midjourney用于静态图像，Grok Imagine + 其他工具用于动画

每栋房子都有一个调色板，一个符号，一个格言和一个签名人物。200个命名人物在神经元中，所有人都有完成的肖像。所有人都在Midjourney中生成，所有人都携带着相同的锁定风格。这是大多数人不相信的部分，直到他们浏览阵容。

https://preview.redd.it/qqoacene5k1h1.png?width=2360&format=png&auto=webp&s=bd5cc45cb426f9decc577be81e41d6e52c9fefb8

为什么MJ而不是其他工具：

--sref（风格参考）。我有一个主管风格参考代码，它定义了“精致的幻想”风格。每个肖像都携带它。只有这样，我的11栋房子才不会看起来像11个不同的艺术家工作了。
Moodboards。继续将最好的输出放在MJ Moodboard上，它与风格参考锁定在一起。
绘画英雄肖像无需提示技巧。SDXL接近了，但我花费了更多时间编写提示，而不是绘制人物。
--ar灵活性用于实际UI形状（4：5肖像，1：1横幅，16：9展开）。

我的MJ管道（实际工作流程，不是市场版本）：

写一个结构化的模板（房子，角色，统计，独特特征，调色板，风格参考，ar，风格化值）
生成4个变体
如果没有人成功，调整风格化或混沌并重试 — 从来不重试提示
如果提示本身是错误的，我会重新写它，并使用Perplexity进行批判性回顾 — 我会粘贴提示和图像到Perplexity中，并问“为什么这个提案没有成功”
upscale，然后将其dump到Google Drive中通过Make.com自动化
Photoshop pass用于AI仍然不能做的事情 — 修复漂移的眼睛，手指计数，偶尔背景疯狂的包含

动画 / 动画：对于人物动画，我正在使用Grok Imagine（图像到视频，然后从帧扩展链来进行更长的画面）。对于UI动画 / 接口动画，我正在以代码方式在CSS和Framer中进行。

诚实地说，动画是我的管道中最弱的部分。Grok Imagine是当前可用选项中最好的，但它仍然是6/10。脸部漂移。手指重绘。我正在以60%的动画发射游戏启动预告片，因为其他40%不值得修复。

难得的教训：选择一个一致性锚点（在我的例子中是--sref + MJ Moodboard)并且不要偏离。每次我试图用“更好的”模型为一个角色节省时间时，我都会得到一个不属于家庭的角色。

如果有人解决了字符动画这个问题，我的工作流程是如何的？我一直在听说Kling，Runway，Pika，Sora，Veo — 我试过了大多数它们在试验级别上，但没有一个足够好以取代Grok Imagine在我的用例中（具体来说，人物动画在肖像大小，绘画风格中 — 我不是制作动作游戏，这个部分的堆栈将会是完全不同的）。如果您已经解决了这个问题，我想知道您的工作流程是如何的。

3. 游戏平衡 — Perplexity调度Claude + ChatGPT

这是我堆栈中最低调的部分，我认为它可能是最有帮助的。

问题：平衡一个有8个统计项，6个初始位置 + 1选项 + 2板凳，11栋房子和一个强堡垒防御层的游戏是一个多维数学问题。无法在头脑中持有整个状态，也无法信任一个模型来做，因为每个模型都有不同的弱点。

我做的：

我将平衡问题传递给Perplexity作为调度者。Perplexity有一个特性，允许您询问一个问题并将其路由到Claude或ChatGPT（和其他）中，带入实时数据，如果问题触及现有F2P游戏。因此，对于一个问题“如果我限制力量贡献在60%的伤害滚动中，什么会发生在我的法师构建中？”，我会得到：

数学推理（Claude做得最好 — 它会坚持约束直到结束）
市场背景（来源 — “在Idle Heroes中，等效限制被设置为X%，并且发生了什么在法师使用率中”）
异议（通常是ChatGPT，更加激进地指出Claude错过的边缘案例）

然后，我会将这个综合结果传递给Claude单独运行，带上我的实际平衡表格，并询问它重新计算。

成本 vs. 益处：这比单独询问Claude更昂贵。但是答案是显著的好，且“显著好”在平衡问题中意味着我不必在三个星期后重新平衡相同的系统。数学会累计。

哪里会遇到瓶颈：任何需要实际玩测试的问题。没有模型可以告诉你你的阵容是否有趣。你必须玩它。AI协助平衡，但它不会替代玩测试。

如果有人 else正在使用一个调度者在模型堆栈中进行平衡？我觉得这是目前最低调的模式在单人游戏开发中，并且我不确定是否是因为没有人在做它，还是因为每个人都在静悄悄地做它，而不发表。

4. 传说 — Perplexity，一个不同的工作流

这是层次结构中AI和人类分离的进展速度快于我可以跟踪的速度。

我写的：神经元。11栋房子的格言，符号，主要人物的曲线，宇宙学（屏障，黑厅，落下的登记册），真实语句（Thornveil记录分数），标语（你的幻想联盟。在幻想世界中。）。

我写它。重写它。删除它。重新引入它。没有模型触摸神经元（或深神经元？不确定该怎么称呼它）。

Perplexity做的：在约束内扩展。

一旦一个房子有格言和调色板，我会询问Perplexity“给出House Resolve的格言‘坚立，流血，不断折断’和坦克重型战斗身份，给我三个新小人物谁看起来像房子但不是重复的”。Perplexity会返回命名人物，简短的背景故事和统计建议。我会保留五分之一。其他四个会被废弃或合并。

为什么Perplexity而不是聊天模型：

它引用。即使是虚构的引用也会从现实世界的文化参考点中拉出，强化世界建构（一个房子的格言会引用一个历史誓言时会比不引用时更有趣）。
它更愿意说“这与你之前建立的内容冲突”当我提供神经元文档时。聊天模型更倾向于“是的，而且”你，而不是。

难得的教训：我试图用AI生成神经元早期。它是可忽视的。普通幻想垃圾。可以在两个句子中判断一个神经元是由一个关心的人写的还是由一个没有关心的模型生成的。

我在第六个月左右重新写了整个基础神经元，游戏改变了。并且我必须随着我们前进而演进它，这通常涉及我写和模型扩展。

开放问题：我很好奇每个人在神经元和AI之间的分界线上是如何划分的。我的分界线是神经元（我的）vs. 扩展（AI在我的神经元内）。有人更进一步 — 完全人类，还是完全AI — 并且对此感到满意吗？

如果我从头开始，我会做得不同

首先选择一致性锚点，然后生成一个图像。风格参考锁定（在我的例子中是--sref + MJ Moodboard)可以节省数千美元和数周的重做。如果你没有一个，艺术会看起来像一个Pinterest板而不是一个游戏。
不要让AI写你的神经元。让它扩展它并在它内扩展。
使用一个调度者，而不是单个模型。选择合适模型的问题类型的质量提高了约30%，而成本增加了约10%。
在功能之前建立测试框架。 AI比我更快地编写实现。瓶颈现在是QA，而不是代码。如果我在第一年知道这一点，我会建立更好的测试基础设施。但是要公平地说，过去12个月的质量改进使建立更好的测试基础设施变得更容易。
在营销中不要为AI部分道歉。大多数玩家不在乎你使用了AI（无论是多少个AI狂热者会出现在你的评论中）。他们关心的是游戏是否好。关心你使用了AI的人是其他开发者 — 这就是为什么我在这里说这件事的原因。

在你的堆栈之旅中，你取得了什么成就？

一些我很想得到你的看法的问题，包括你是否遇到了同样的问题：

平衡的调度者模式。我是否过于复杂化了这个问题？我应该只使用一个模型来解决所有问题吗？
动画工具的动画。对于风格化人物，什么工具实际上在生产质量中工作得好？我在五月2026年。
神经元和AI之间的分界线。我的分界线是神经元（我的）vs. 扩展（AI在我的神经元内）。有人更进一步 — 完全人类，还是完全AI — 并且对此感到满意吗？
当AI编写大部分代码时，测试基础设施。我在QA瓶颈上意识到这一点。任何建立了一个工作流程的人都知道这个问题。有没有人建立了一个他们满意的设置？
你在开始时想要知道的一件事情。我有我的清单。有没有人想分享他们的？

在开发一个将体育竞猜与休闲 RPG 结合起来的项目已经过去了 18 个月了，下面是我选择的四工具 AI 堆栈的结果。很好奇其他人选择了什么样的堆栈。