본문 바로가기

AI Insights & Innovations

최신 인공지능 기술과 트렌드를 탐색하는 전문 블로그

HARDWARE/AMD

AMD GPU에서 Wan 2.1 비디오 생성 모델 실행하기: 완벽 가이드

by dma-ai 2025. 4. 11.
728x90

AMD GPU에서 Wan 2.1 비디오 생성 모델 실행하기: 완벽 가이드

오늘날 AI 기반 비디오 생성 기술이 급속도로 발전하면서, Wan 2.1과 같은 강력한 모델들이 주목받고 있습니다. 그러나 대부분의 AI 모델이 NVIDIA GPU에 최적화되어 있어 AMD GPU 사용자들은 종종 설정과 실행에 어려움을 겪습니다. 이 글에서는 AMD GPU에서 Wan 2.1 비디오 생성 모델을 효과적으로 실행하는 방법을 단계별로 상세히 알아보겠습니다.

목차

  • Wan 2.1 모델 소개
  • AMD GPU 호환성 및 성능 고려사항
  • 준비 사항
  • 단계별 설치 가이드
  • 성능 최적화 팁
  • 문제 해결 방법
  • 결론

Wan 2.1 모델 소개

Wan 2.1은 텍스트-비디오(T2V)와 이미지-비디오(I2V) 생성을 지원하는 강력한 AI 모델군으로, Wan-AI(또는 Alibaba의 Tongyi Lab)에서 개발되었습니다. 이 모델은 텍스트 프롬프트나 이미지를 기반으로 고품질 비디오를 생성할 수 있으며, ComfyUI와 같은 도구를 통해서도 실행 가능합니다.

Wan 2.1은 다양한 해상도(480p, 720p)와 모델 크기(1.3B, 14B 매개변수)를 제공하여 사용자의 하드웨어 성능에 맞게 선택할 수 있습니다. 소비자급 GPU에서도 실행 가능하도록 설계되었지만, 주로 NVIDIA GPU에 최적화되어 있어 AMD GPU에서는 추가적인 설정이 필요합니다.

AMD GPU 호환성 및 성능 고려사항

AMD GPU에서 Wan 2.1을 실행하기 위해서는 ROCm(Radeon Open Compute) 플랫폼이 필요합니다. ROCm은 주로 Linux 환경에서 지원되며, Windows 사용자는 WSL2(Windows Subsystem for Linux 2)를 통해 Linux 환경을 에뮬레이션하여 사용할 수 있습니다.

호환 GPU 목록

ROCm을 지원하는 AMD GPU는 다음과 같습니다:

  • AMD Instinct 시리즈
  • Radeon Pro 시리즈
  • 일부 소비자급 GPU (Radeon VII, 일부 RDNA 2 GPU)

전체 지원 목록은 ROCm 문서에서 확인할 수 있습니다.

성능 비교

사용자 경험에 따르면, AMD GPU에서 실행 시 NVIDIA GPU에 비해 성능이 제한적일 수 있습니다. 예를 들어:

  • AMD 7900xtx에서 14B 모델로 97프레임 비디오 생성에 약 1.5-2시간 소요
  • DirectML 백엔드 사용 시 4D 오류 발생 가능
  • ROCm을 사용한 Linux 환경에서는 Windows DirectML 대비 약 10배 빠른 속도 경험

준비 사항

AMD GPU에서 Wan 2.1을 실행하기 위한 기본 요구사항은 다음과 같습니다:

  1. ROCm을 지원하는 AMD GPU
  2. Linux 운영 체제(Ubuntu, RHEL 등) 또는 Windows에서 WSL2
  3. Python 3.10 이상
  4. Git
  5. 최소 8GB 이상의 VRAM (T2V-1.3B 모델 기준)

단계별 설치 가이드

1. ROCm 설치

Linux 시스템에 ROCm을 설치하는 방법은 다음과 같습니다. 예시는 Ubuntu 기준입니다:

sudo apt update
sudo apt install rocm-dkms

ROCm 설치에 대한 자세한 내용은 ROCm 설치 가이드를 참조하세요.

2. ROCm 지원 PyTorch 설치

PyTorch 공식 사이트에서 Linux, Pip, Python, ROCm을 선택하여 설치 명령어를 얻을 수 있습니다:

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm5.4.2

Wan 2.1은 PyTorch 2.4.0 이상 버전을 요구하므로, 설치 후 버전을 확인해보세요:

python -c "import torch; print(torch.__version__)"

3. Wan 2.1 저장소 복제

Git을 사용하여 Wan 2.1 저장소를 복제합니다:

git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1

4. 의존성 설치

필요한 Python 패키지를 설치합니다:

pip install -r requirements.txt

5. 모델 다운로드

원하는 Wan 2.1 모델을 다운로드합니다. 예를 들어, T2V-1.3B 모델의 경우:

huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./Wan2.1-T2V-1.3B

6. 생성 스크립트 실행

VRAM이 제한적인 AMD GPU의 경우, 메모리 사용을 관리하기 위해 --t5_cpu와 --offload_model True 플래그를 사용하는 것이 좋습니다:

python generate.py --task t2v-1.3B --size 832x480 --ckpt_dir ./Wan2.1-T2V-1.3B --t5_cpu --offload_model True --prompt "두 마리의 인간형 고양이가 밝은 장갑과 편안한 복싱 장비를 착용하고 스포트라이트가 비추는 무대에서 격렬하게 싸운다."

성능 최적화 팁

AMD GPU에서 Wan 2.1의 성능을 최적화하기 위한 몇 가지 팁은 다음과 같습니다:

  1. 메모리 최적화:
    • --t5_cpu 플래그를 사용하여 T5 텍스트 인코더를 CPU로 오프로드
    • --offload_model True 설정으로 메모리 사용 최적화
    • 더 작은 비디오 해상도 선택 (예: 832x480)
  2. 플랫폼 선택:
    • Linux + ROCm이 가장 좋은 성능 제공
    • Windows 사용자는 WSL2를 통한 Linux 환경 설정 권장
    • DirectML은 성능 문제가 있을 수 있음
  3. 모델 선택:
    • VRAM이 제한된 경우 T2V-1.3B 모델 사용 (약 8.19GB VRAM 요구)
    • 고성능 AMD GPU에서만 14B 모델 고려

문제 해결 방법

AMD GPU에서 Wan 2.1을 실행할 때 발생할 수 있는 일반적인 문제와 해결 방법은 다음과 같습니다:

OOM (Out of Memory) 오류

문제: VRAM이 부족하여 생성 프로세스 중 메모리 오류가 발생합니다.

해결 방법:

  • 비디오 해상도를 낮춰보세요 (예: 832x480)
  • 더 작은 모델(T2V-1.3B)을 사용하세요
  • --t5_cpu와 --offload_model True 플래그를 함께 사용하세요
  • 생성 배치 크기를 줄이세요

4D 텐서 오류

문제: DirectML 백엔드 사용 시 4D 텐서 관련 오류가 발생할 수 있습니다.

해결 방법:

  • Linux 환경에서 ROCm을 사용하세요
  • Windows 사용자는 WSL2를 통해 Linux 환경을 설정하는 것이 좋습니다

GPU 활용도 문제

문제: --t5_cpu 플래그 사용 시 GPU 활용이 최적화되지 않을 수 있습니다.

해결 방법:

  • 충분한 VRAM이 있다면 --t5_cpu 플래그를 생략해 보세요
  • 그러나 OOM 오류가 발생한다면 다시 활성화해야 합니다
  • GPU 메모리와 CPU 메모리 사용량의 균형을 찾아보세요

PyTorch ROCm 호환성 문제

문제: PyTorch ROCm 버전과 시스템 ROCm 버전 간의 불일치

해결 방법:

  • 시스템에 설치된 ROCm 버전 확인: rocm-smi --showversion
  • 해당 버전에 맞는 PyTorch ROCm 버전 설치
  • 최신 ROCm 드라이버 및 PyTorch 버전으로 업데이트

결론

AMD GPU에서 Wan 2.1 비디오 생성 모델을 실행하는 것은 다소 복잡할 수 있지만, 적절한 설정과 최적화를 통해 충분히 가능합니다. Linux 환경에서 ROCm을 사용하면 최상의 성능을 얻을 수 있으며, Windows 사용자는 WSL2를 통해 유사한 환경을 구축할 수 있습니다.

T2V-1.3B와 같은 작은 모델은 8GB 이상의 VRAM을 가진 대부분의 최신 AMD GPU에서 실행 가능하며, --t5_cpu와 --offload_model True 플래그를 사용하여 메모리 사용을 최적화할 수 있습니다. 더 큰 14B 모델은 고성능 AMD GPU와 추가 최적화가 필요할 수 있습니다.

AMD GPU에서 Wan 2.1을 실행하면서 문제가 발생한다면, 커뮤니티 포럼이나 GitHub 이슈 페이지를 통해 도움을 받을 수 있습니다. 빠르게 발전하는 AI 생성 모델의 세계에서, AMD GPU 사용자들도 이제 더 많은 옵션과 지원을 기대할 수 있게 되었습니다.

728x90