본문 바로가기

AI Insights & Innovations

최신 인공지능 기술과 트렌드를 탐색하는 전문 블로그

영상생성AI/WAN2.1

[완벽 가이드] WAN 2.1 무료 AI 비디오 생성기 - ComfyUI에서 텍스트/이미지로 고품질 영상 만들기

by dma-ai 2025. 3. 8.
728x90

0

WAN 2.1 AI 비디오 생성기 설치 및 사용 가이드

WAN 2.1은 텍스트-비디오(Text-to-Video) 및 이미지-비디오(Image-to-Video) 변환이 가능한 무료 AI 비디오 모델입니다. 이 모델은 자연스러운 움직임과 시각적 일관성을 갖춘 고품질 비디오를 생성하며, 다른 모델들보다 뛰어난 성능을 보여줍니다. 이 가이드에서는 ComfyUI를 사용하여 WAN 2.1을 설치하고 활용하는 방법을 단계별로 알려드립니다.

필요 사항

  • NVIDIA GPU (최소 8GB VRAM, 권장 24GB)
  • ComfyUI 최신 버전
  • 약 10-15GB의 저장 공간 (모델 파일용)

설치 단계

1. ComfyUI 설치 및 업데이트

이미 ComfyUI가 설치되어 있다면, 최신 버전으로 업데이트해 주세요. ComfyUI를 실행한 후 Manager로 이동하여 "Update All"을 클릭합니다.

2. 필수 파일 다운로드

Text-to-Video 모델을 위한 파일

  1. 텍스트 인코더 파일 다운로드:
  2. VAE 모델 다운로드:
  3. WAN 모델 파일 다운로드:
    • WAN 모델 파일 다운로드 링크
    • 고성능 GPU (24GB+ VRAM):
      • WAN-2.1-14b_fp8.safetensors
    • 중간 사양 GPU (12-16GB VRAM):
      • WAN-2.1-1.3b_fp16.safetensors
    • 저사양 GPU (8GB VRAM):
      • WAN-2.1-1.3b_fp8.safetensors
    • 다운로드 후 ComfyUI/models/checkpoints 폴더에 저장
  4. Text-to-Video 워크플로우 다운로드 후 로컬에 저장 

text_to_video_wan.json
0.01MB

Image-to-Video 모델을 위한 파일

  1. CLIP Vision 파일 다운로드:
  2. WAN Image-to-Video 모델 다운로드:
    • WAN 모델 파일 다운로드 링크에서 다음 파일을 확인하세요:
    • 고성능 GPU (24GB+ VRAM):
      • WAN-2.1-image-to-video-720p-fp8.safetensors
    • 저사양 GPU (12-16GB VRAM):
      • WAN-2.1-image-to-video-480p-fp8.safetensors
    • 다운로드 후 ComfyUI/models/checkpoints 폴더에 저장
  3. Image-to-Video 워크플로우 다운로드 후 로컬에 저장

image_to_video_wan_example.json
0.01MB

Text-to-Video 사용법

워크플로우 로드하기

  1. ComfyUI를 실행합니다.
  2. 다운로드한 Text-to-Video 워크플로우 파일을 ComfyUI 인터페이스로 드래그 앤 드롭합니다.

설정 조정하기

1. 모델 선택

  • 고사양 시스템: WAN-2.1-14b_fp8.safetensors (권장)
  • 저사양 시스템: WAN-2.1-1.3b_fp16.safetensors 또는 WAN-2.1-1.3b_fp8.safetensors

2. 텍스트 인코더 선택

  • fp16: 프롬프트 더 정확하게 표현 (고품질)
  • fp8: 더 빠른 처리 속도 (약간 낮은 정확도)

3. 프롬프트 작성

  • 장면, 움직임, 구성, 카메라 움직임을 명확하게 설명
  • 중국어 모델이므로 정확한 영어 프롬프트 작성이 중요
  • 부정적 프롬프트는 기본값 사용 (흐림, 노이즈, 왜곡 등 제거)

4. 비디오 설정 (중요)

  • 해상도:
    • 권장: 960x542 (고품질과 처리 시간의 균형)
    • 저사양: 832x480 또는 더 낮게
  • 프레임 수:
    • 고사양: 65 프레임 = 약 4초 (16 FPS 기준)
    • 저사양: 33-49 프레임 = 약 2-3초
  • 규칙: 더 긴 비디오를 원하면 해상도를 낮추고, 더 높은 해상도를 원하면 비디오 길이를 줄이세요.

5. 샘플러 설정

  • Steps: 20-40 (높을수록 품질 향상, 처리 시간 증가)
  • CFG Scale: 5-10 (프롬프트 충실도 조절, 높을수록 강조)
  • 샘플러: DPM++ 2M Karras (권장)
  • 스케줄러: Karras (권장)

6. 출력 설정

  • 웹P 설정:
    • 품질: 100%
    • 파일명 설정
  • 웹M 설정:
    • Frame Rate: 16 FPS
    • CRF: 20 (낮을수록 품질 향상, 파일 크기 증가)
    • 웹M 노드 활성화: 노드 선택 후 Ctrl+B

비디오 생성하기

  1. 모든 설정을 완료하고 "Q" 버튼을 클릭하여 생성 시작
  2. 처리 시간은 사양에 따라 다름 (일반적으로 15-20분 소요)
  3. 생성 완료 후 웹P 노드에서 비디오 미리보기 가능

팁과 요령

  • 결과가 만족스럽지 않다면 텍스트 인코더를 FP16으로 변경해 보세요.
  • 프롬프트를 더 자세하고 명확하게 작성하면 결과가 크게 개선됩니다.
  • 낮은 VRAM 사용량을 위해 CFG Scale을 낮추고 Steps를 줄여보세요.

Image-to-Video 사용법

워크플로우 로드하기

  1. ComfyUI를 실행합니다.
  2. 다운로드한 Image-to-Video 워크플로우 파일을 ComfyUI 인터페이스로 드래그 앤 드롭합니다.

설정 조정하기

1. 모델 선택

  • 고사양(24GB+ VRAM): WAN-2.1-image-to-video-720p-fp8.safetensors
  • 저사양: WAN-2.1-image-to-video-480p-fp8.safetensors

2. 이미지 로드 및 프롬프트 작성

  • 변환할 이미지 파일 로드
  • 이미지에 맞는 프롬프트 작성 (주로 움직임과 변형에 초점)
  • Text-to-Video와 달리 이미 이미지가 있으므로, 움직임 설명에 집중

3. 비디오 설정

  • 해상도: 원본 이미지의 비율 유지
  • 프레임 수:
    • 고사양: 49 프레임 = 약 3초
    • 저사양: 33 프레임 = 약 2초

4. 샘플러 설정

  • Steps: 20 (기본값)
  • CFG Scale: 6 (적절한 수준)
  • 샘플러 및 스케줄러: 기본값 사용

5. 출력 설정

  • Text-to-Video와 동일한 방식으로 설정

비디오 생성하기

  1. 모든 설정을 완료하고 "Q" 버튼을 클릭하여 생성 시작
  2. Image-to-Video는 일반적으로 Text-to-Video보다 더 많은 리소스를 사용
  3. 생성 시간은 약 8-10분 소요 (사양에 따라 다름)

팁과 요령

  • GPU 부하가 너무 크면 프레임 수를 줄이거나 해상도를 낮추세요.
  • Image-to-Video 결과는 유료 모델 수준의 품질을 보여줍니다.

저사양 GPU를 위한 옵션

8-12GB VRAM GPU 설정

  1. 더 작은 모델 사용:
    • Text-to-Video: 1.3B FP8 모델
    • Image-to-Video: 480p 모델
  2. 해상도 축소: 832x480 또는 더 낮게
  3. 프레임 수 감소: 33 프레임 (약 2초)
  4. Steps 및 CFG Scale 낮추기

클라우드 GPU 옵션

매우 제한된 VRAM이나 더 빠른 처리를 원하는 경우, ThinkDiffusion과 같은 클라우드 GPU 서비스를 활용할 수 있습니다. 이런 서비스는 최대 48GB VRAM의 강력한 GPU에 접근할 수 있게 해줍니다.

비디오 품질 향상 방법

생성된 비디오 확인

  • ComfyUI의 output 폴더에서 생성된 비디오 파일 확인 가능
  • .webp 및 .webm 두 가지 형식으로 저장됨

Topaz Video AI를 사용한 업스케일링

  1. 생성된 .webm 파일을 Topaz Video AI로 드래그 앤 드롭
  2. "Start Editing" 클릭
  3. 업스케일 옵션:
    • 해상도: 2x 업스케일 (원본 크기의 두 배)
    • 모델: "Rare" (대부분의 경우 적합)
  4. 프레임 보간 활성화:
    • 프레임 레이트 24로 증가
  5. "Quick Export" 클릭하여 업스케일된 비디오 저장

이 과정을 통해 더 선명한 디테일과 부드러운 움직임을 가진 비디오를 얻을 수 있습니다.

마치며

WAN 2.1은 무료 오픈소스 모델임에도 Minimax나 Luma Ray 2와 같은 유료 옵션에 필적하는 품질을 제공합니다. 특히 Image-to-Video 기능은 매우 인상적입니다. 프롬프트 작성, 설정 미세 조정 및 후처리를 통해 놀라운 결과를 얻을 수 있으니 다양한 실험을 해보시기 바랍니다.

이 가이드가 유용했다면, 블로그나 SNS에 공유해 더 많은 사람들이 AI 비디오 생성의 가능성을 탐험할 수 있도록 도와주세요!

728x90