본문 바로가기

AI Insights & Innovations

최신 인공지능 기술과 트렌드를 탐색하는 전문 블로그

영상생성AI/ComfyUI

ComfyUI-WanVideoWrapper 사용 가이드

by dma-ai 2025. 3. 7.
728x90

ComfyUI-WanVideoWrapper 사용 가이드

소개

ComfyUI-WanVideoWrapper는 WanVid AI 비디오 모델을 ComfyUI에서 쉽게 사용할 수 있도록 해주는 확장 프로그램입니다. WanVid는 이미지를 비디오로 변환하고 동영상을 생성하는 AI 모델로, 이 래퍼를 통해 복잡한 설치 과정 없이 ComfyUI에서 바로 활용할 수 있습니다.

주요 기능

  • 이미지에서 비디오 생성
  • 다양한 동작 제어 옵션
  • ComfyUI 워크플로우와 완벽하게 통합

설치 방법

기본 요구 사항

  • Python 3.10 이상
  • CUDA 지원 GPU (최소 12GB VRAM 권장)
  • ComfyUI 설치

설치 단계

  1. ComfyUI의 custom_nodes 디렉토리에 이 저장소를 클론합니다:
cd ComfyUI/custom_nodes
git clone https://github.com/kijai/ComfyUI-WanVideoWrapper
cd ComfyUI-WanVideoWrapper
pip install -r requirements.txt
  1. 필요한 모델 파일을 다운로드합니다:
  • WanVid 모델 가중치: Hugging Face에서 다운로드
  • 모델 파일을 ComfyUI/models/WanVid/ 디렉토리에 저장 (디렉토리가 없다면 생성)

필요한 파일:

  • WanVid_v1.pt (주 모델 파일)
  • core_model_motion 폴더의 모든 파일

사용 방법

기본 워크플로우

  1. ComfyUI를 실행하고 새 워크플로우를 생성합니다.
  2. 노드 메뉴에서 "WanVid" 노드를 검색하여 추가합니다.
  3. 입력 이미지를 연결하고 다음 파라미터를 설정합니다:
    • fps: 생성할 비디오의 초당 프레임 수 (기본값: 8)
    • motion_bucket_id: 동작의 강도 (0-511, 값이 클수록 움직임이 강해짐)
    • cond_aug: 조건부 증강 (0.02-0.05 권장)
    • num_frames: 생성할 프레임 수
    • decoding_t: 디코딩 단계 수 (6-12 권장, 높을수록 품질 향상)
  4. 워크플로우를 실행하여 비디오를 생성합니다.

고급 설정

움직임 제어

  • motion_bucket_id: 0-511 사이의 값으로, 값이 클수록 더 강한 움직임 생성
  • cond_aug: 조건부 증강 값 (0.02-0.05 권장)
    • 낮은 값: 입력 이미지와 더 유사한 결과
    • 높은 값: 더 다양하고 창의적인 움직임

프레임 설정

  • num_frames: 생성할 총 프레임 수
  • fps: 초당 프레임 수
  • decoding_t: 디코딩 스텝 수 (품질과 생성 시간의 균형)

예제 워크플로우

기본적인 이미지-비디오 변환 워크플로우:

  1. 이미지 로더 노드 → 이미지 선택
  2. WanVid 노드 연결 및 파라미터 설정:
    • fps: 8
    • motion_bucket_id: 127
    • cond_aug: 0.02
    • num_frames: 16
    • decoding_t: 8
  3. 비디오 저장 노드 연결
  4. 실행 및 결과 확인

문제 해결

일반적인 문제

  1. CUDA 메모리 오류
    • 문제: "CUDA out of memory" 오류 발생
    • 해결: 생성할 프레임 수를 줄이거나, 이미지 해상도를 낮추거나, decoding_t 값을 줄입니다.
  2. 모델 로딩 실패
    • 문제: "Model not found" 오류
    • 해결: 모델 파일이 올바른, ComfyUI/models/WanVid/ 디렉토리에 있는지 확인합니다.
  3. 낮은 품질의 결과
    • 문제: 생성된 비디오의 품질이 좋지 않음
    • 해결: decoding_t 값을 높이고, 더 좋은 품질의 입력 이미지를 사용합니다.

팁과 트릭

  1. 최적의 이미지 선택
    • 선명하고 고품질의 이미지가 더 좋은 결과를 제공합니다.
    • 512x512 또는 768x768 해상도가 이상적입니다.
  2. 움직임 제어
    • 얼굴이나 인물 이미지: 낮은 motion_bucket_id (50-150) 사용
    • 풍경이나 자연 이미지: 중간 motion_bucket_id (150-300) 사용
    • 추상적인 움직임: 높은 motion_bucket_id (300-500) 사용
  3. 결과 최적화
    • 첫 번째 결과가 만족스럽지 않다면 cond_aug 값을 조금씩 조정해보세요.
    • 다양한 motion_bucket_id 값을 실험하여 원하는 동작 스타일을 찾으세요.

참고 자료

제한 사항

  • 현재 WanVid 모델은 정방형 이미지(512x512, 768x768 등)에서 가장 잘 작동합니다.
  • 긴 비디오 시퀀스(32프레임 이상)는 높은 VRAM을 요구합니다.
  • 일부 복잡한 장면이나 빠른 움직임은 정확하게 재현하기 어려울 수 있습니다.
728x90