底层图像是使用人工智能生成的,但这仅仅是起点。大量的手动工作进入重构输出:融合、清洁、透视校正和将元素分离为可在运行时使用的一致深度层。

我惊讶的是,这种方法在特定于视差的上下文中如何得天独厚。

一旦场景被分解成层次结构,摄像机开始移动,生成图像的典型问题就会变得不那么相关。脑子停止读取静态图像,开始解释它作为空间深度,掩盖了一定的缺陷。

在实践中,管道最终变成了:

  • 人工智能生成的底层场景探索
  • 手动融合和结构清洁
  • 重建为分层深度切片
  • 摄像机调节以强化深度感知

我还发现了一个有趣的方面:当你检查场景的外部摄像机框架之外的一切时,一切都会坍塌到明显的扁平面和“损坏”的几何体。但是在运动中,它们读起来是一个令人惊讶的连贯环境。只有当你停止看图像作为图像时,幻觉才会起作用。

我很想知道其他人是否在推动类似的工作流程。

演示这里如果你感兴趣:
https://store.steampowered.com/app/4434520/Office_Leveling/