我正在制作一款生成式塔防游戏,其中我会生成敌人艺术、塔的艺术以及敌人行进的背景图像。我要讨论的问题专门涉及背景生成。
思路相当简单:在我的自定义编辑器中,我放置瓦片来创建敌人将要沿着行进的道路路径。编辑器会生成一个掩码,用来告诉图像生成模型道路必须绘制的位置。道路之外的所有区域,模型应以《王国保卫战》风格的美学生成其余世界。最终的背景图像会插入游戏中,敌人会沿着掩码定义的轨迹移动,从而产生它们实际上在画好的道路上行进的幻觉。
对我来说,OpenAI 的 GPT-Image-1.5 目前是实现“哇,这看起来真棒”效果的最有前景的模型。但我注意到一个主要问题:它对道路掩码的遵循非常差。它可能会复现形状,但放在错误的位置,或者有时会生成完全随机的道路,虽然整体图像仍然很美。这种行为会破坏游戏逻辑,因为敌人的路径不再匹配生成的地形。
为了解决这个问题,我开始将背景分多个阶段生成。首先,我使用 GPT-Image-1.5 生成没有装饰的生物群系。然后,我使用 Grok Imagine 单独生成道路,因为它对掩码约束的遵循要严格得多。最后,为了避免环境看起来过于平坦,我把合成后的图像作为参考图像再次发送给 GPT-Image-1.5,让它在不修改道路本身的前提下添加环境装饰。
有没有人可以提供一些思路,告诉我可以做哪些改动,或者如何更好地实现《王国保卫战》视觉风格?
https://preview.redd.it/xzwjcr9tq31h1.png?width=1920&format=png&auto=webp&s=e0c83e9da32e8fe8e636b41aa121560ade5c138c
评论 (0)