我花了上一周时间为ComfyUI设计管道,将参考图像转换为可自定义的动画角色图集。

管道被分成两个部分,并完全在我的 RTX 3090 上(24GB VRAM)本地运行:

1 - 基本动画(休闲、走动、跳跃... 等)

从一个“裸”基准角色图片开始-这产生了我的动画基准角色一张灰度图集。

  • WAN 2.2 i2v 14B(Q5_K_M GGUF,distilled lightx2v 4-step)用于图像到视频生成
  • BiRefNet用于背景条目的清洁 alpha。
  • ImageStitchImageRGBToYUV节点用于创建灰度图集的sprite

2 - 自定义层(眼睛、头发、衬衫... 等)

从一个基准动画的动态视频和自定义图像的图像开始创建一个层-这产生了一个自定义层的灰度图集。

  • Wan 2.1 VACE 14B(Q5_K_M GGUF)+CausVid distill LoRA用于在动态视频中填充美容品-确保美容品在每帧都与基准动画对齐。
  • SAM3分段隔离自定义每个帧
  • ImageStitchImageRGBToYUV再次用于生产自定义层的图集

每个自定义都需要针对每个基准动画重制,并且灰度的确允许我分开每个层。

取得成功是困难的,特别是自定义层如何与基准角色动画对齐。这使得我很困惑,我最初尝试使用 Wan 2.2 Animate 但它并未真正遵循原始基准动画的,我最终决定使用填充模型代替。

我仍然感到惊讶,毕竟我几乎无法画出一个棍子这样的东西。