본문 바로가기

AI Insights & Innovations

최신 인공지능 기술과 트렌드를 탐색하는 전문 블로그

영상생성AI/WAN2.1

WAN 2.1로 알아보는 멀티 GPU 환경에서의 로컬 AI 비디오 생성: 24GB에서 8GB GPU까지 성능 테스트

by dma-ai 2025. 3. 8.
728x90

로컬 AI 비디오 생성 및 모델 훈련 완벽 가이드: WAN 2.1 및 Ollama 활용하기

안녕하세요! 오늘은 로컬 환경에서 AI 비디오를 생성하고 모델을 훈련하는 방법에 대해 상세히 알아보겠습니다. 특히 WAN 2.1 모델과 Ollama를 활용한 최적화 방법을 중점적으로 다루어, 여러분의 AI 작업 효율성을 극대화하는 데 도움이 되고자 합니다.

그래픽카드별 AI 비디오 생성 성능 비교표

특성 NVIDIA RTX 4090 (24GB) NVIDIA RTX 3090 (24GB) NVIDIA RTX 3060 (12GB) NVIDIA RTX 3070 (8GB)

VRAM 용량 24GB 24GB 12GB 8GB
권장 해상도 1280x720 (고해상도) 1280x720 (고해상도) 480p (중간 해상도) 256x256 또는 480p (낮은 해상도)
14b 모델 지원 완벽 지원 완벽 지원 제한적 지원 (VRAM 부족 가능성) 매우 제한적 (VRAM 부족 가능성 높음)
권장 프레임 수 81 frames (5초) 81 frames (5초) 65 frames (4초) 미만 권장 49 frames (3초) 미만 권장
VAE 최적화 선택 사항 선택 사항 권장 필수
VAE Tiling 불필요 불필요 권장 필수
Tcash 활성화 권장 가능 비권장 불가능
다중 GPU 활용 비디오 생성 + 모델 훈련 비디오 생성 + 모델 훈련 비디오 생성 중심 비디오 생성 중심 (제한적)
전력 소비 매우 높음 (450W) 높음 (350W) 중간 (170W) 중간 (220W)
상대적 성능 ★★★★★ ★★★★☆ ★★★☆☆ ★★☆☆☆
가격 대비 성능 ★★★☆☆ ★★★☆☆ ★★★★☆ ★★★★★
장점 - 최고 성능<br>- 고해상도 생성<br>- 다용도 활용<br>- 빠른 렌더링 - 높은 성능<br>- 고해상도 생성<br>- 다용도 활용 - 적절한 가격<br>- 합리적인 성능<br>- 기본 해상도 생성 가능 - 경제적 가격<br>- 기본 AI 비디오 생성 가능
단점 - 매우 높은 가격<br>- 높은 전력 소비<br>- 냉각 요구사항 높음 - 높은 가격<br>- 높은 전력 소비<br>- 4090 대비 성능 하락 - 고해상도 제한<br>- 14b 모델 사용 시 제약<br>- 긴 렌더링 시간 - 해상도 크게 제한<br>- VRAM 부족 현상<br>- 복잡한 모델 불가<br>- 매우 긴 렌더링 시간
최적 사용 사례 프로페셔널 AI 비디오 생성<br>대규모 모델 훈련<br>연구 환경 고품질 AI 비디오 생성<br>대규모 모델 훈련<br>연구 환경 중간 품질 비디오 생성<br>중소규모 프로젝트<br>개인 사용자 기본 비디오 생성<br>테스트 및 학습 목적<br>초보자 및 학생

추가 성능 참고 사항

  1. 메모리 사용량
    • 1280x720 해상도, 14b 모델, 80 frames 기준: 약 11GB VRAM 필요
    • 256x256 해상도, 14b 모델, 49 frames 기준: 약 6GB VRAM 필요
  2. 최적화 옵션의 영향
    • VAE Optimizations 활성화: VRAM 사용량 약 50% 감소, 생성 속도 약 2배 감소
    • Tcash 활성화: 충분한 VRAM 환경에서 생성 속도 향상 (약 30%)
    • Compile Transformers: 전반적인 처리 속도 향상 (10-20%)
  3. 온도 및 전력 관리
    • RTX 4090/3090: 적극적인 냉각 시스템 권장 (수냉 또는 고성능 공랭)
    • RTX 3060/3070: 기본 냉각 시스템으로 충분

목차

  1. 서론
  2. 필요 환경 구성
  3. AI 비디오 생성 (WAN 2.1)
  4. 로컬 모델 훈련 (Ollama)
  5. 하드웨어 구성 및 고려 사항
  6. 마치며

서론

AI 기술의 발전으로 이제 개인 PC나 서버에서도 고품질의 AI 비디오를 생성하고 모델을 훈련할 수 있게 되었습니다. 이 글에서는 WAN 2.1 모델을 활용한 비디오 생성 최적화 방법과 Ollama를 활용한 모델 훈련 환경 구축 및 GPU 설정 방법을 함께 살펴봅니다. 클라우드 서비스에 의존하지 않고 자체 하드웨어를 활용하여 AI 작업을 수행하는 방법을 알아보겠습니다.

필요 환경 구성

GPU 요구 사항

  • NVIDIA RTX 4090 (24GB): 최고 성능, 고해상도 비디오 생성 및 모델 훈련 가능
  • NVIDIA RTX 3090 (24GB): 고성능, 고해상도 비디오 생성 및 모델 훈련 가능
  • NVIDIA RTX 3060 (12GB): 중간 성능, 비디오 생성 중심 사용 가능
  • NVIDIA RTX 3070 (8GB): 기본 성능, 낮은 해상도 비디오 생성 가능
  • 최소 VRAM 요구 사항: 비디오 생성 시 6GB 이상 필요

기타 하드웨어

  • CPU: 고성능 CPU 권장 (모델 훈련 시 CPU 의존도 높음)
  • RAM: 48GB 이상 권장 (모델 훈련을 위한 충분한 시스템 메모리)
  • 저장 장치: SSD 권장 (모델 로딩 및 데이터 처리 속도 향상)

소프트웨어 환경

  • Python: AI 모델 실행 및 스크립트 작성
  • Gradio: WAN 2.1 모델 구동 환경
  • Ollama: 로컬 모델 훈련 및 실행 (https://ollama.com/)
  • CUDA 툴킷: NVIDIA GPU 활용을 위한 필수 도구
  • Docker: 선택 사항, 컨테이너 환경 구성

AI 비디오 생성 (WAN 2.1)

Gradio 서버 실행 및 설정

WAN 2.1 모델을 사용하여 AI 비디오를 생성하려면 다음과 같이 Gradio 서버를 설정하고 실행합니다:

  1. 터미널에서 python gradio_server.py 명령어 실행
  2. 서버 이름을 0.0.0.0으로 설정하여 외부 접속 허용

고급 설정 옵션

최적의 비디오 생성을 위한 설정 옵션입니다:

  • 14b text-to-video Quant at 8 Bits: VRAM 사용량 절약을 위해 권장
  • Text Encoder: 16bit (시스템 RAM이 충분한 경우)
  • Sage: 30% (Sage 1 사용, Sage 2는 현재 작동 문제 발생)
  • Compile Transformers: 활성화하여 성능 향상
  • VAE Optimizations: VRAM이 부족한 경우 활성화 (생성 속도 2배 감소, VRAM 50% 절감)
  • Profile: VRAM 요구량에 따라 선택 (Profile 2: 48GB RAM, 12GB VRAM 권장)
  • Resolution: 1280x720 또는 480p 권장
  • Frames: 81 프레임 (5초) 기본 설정
  • Inference Steps: 30 기본 설정
  • Tcash: VRAM 여유가 있을 때 활성화 (속도 향상)

GPU별 최적화 가이드

각 GPU에 따른 최적 설정을 소개합니다:

RTX 4090 (24GB VRAM)

  • 1280x720 해상도, 고품질 설정 가능
  • Tcash 활성화 권장
  • 높은 전력 소비 감안
  • 다중 GPU 구성 시 비디오 생성 외 모델 훈련에도 활용 가능

RTX 3090 (24GB VRAM)

  • 1280x720 해상도, 고품질 설정 가능
  • 4090 대비 성능 하락 가능성 존재
  • 다중 GPU 구성 시 비디오 생성 외 모델 훈련에도 활용 가능

RTX 3060 (12GB VRAM)

  • 480p 해상도 권장
  • VAE Optimizations 활성화 고려
  • 프레임 수 조절 필요
  • 14b 모델 사용 시 VRAM 부족 가능성 높음
  • 단일 GPU 환경에서 비디오 생성에 집중

RTX 3070 (8GB VRAM)

  • 256x256 또는 480p 해상도 권장
  • VAE tiling 활성화 필수
  • 낮은 프레임 수 (3초, 49 frames) 설정
  • 14b 모델 사용 시 VRAM 부족 가능성 높음
  • 단일 GPU 환경에서 비디오 생성에 집중

VRAM 요구량 참고

  • 1280x720 해상도, 14b 모델, 80 frames: 약 11GB VRAM 필요

로컬 vs 클라우드 비교

로컬 환경과 클라우드 서비스(Google Veo 등)를 비교해 보겠습니다:

로컬 환경의 장점

  • 고품질 커스터마이징 가능
  • 기존 장비 활용
  • 개인 설정 및 실험 자유도 높음
  • 장기적 비용 절감 가능성

클라우드 환경의 장점

  • 초기 투자 비용 없음
  • 하드웨어 관리 불필요
  • 필요할 때만 비용 지불

고려 사항

  • 전기 요금이 높은 지역에서는 로컬 렌더링의 장점이 감소할 수 있음
  • 초당 렌더링 비용 기준으로 비교 필요

로컬 모델 훈련 (Ollama)

Ollama 설치 방법

  1. Ollama 공식 웹사이트(https://ollama.com/)  에서 운영체제에 맞는 버전 다운로드
  2. 설치 프로그램 실행 및 지시에 따라 설치 완료

GPU 드라이버 설치 및 CUDA 설정

  1. NVIDIA 공식 웹사이트에서 최신 GPU 드라이버 다운로드 및 설치
  2. CUDA 툴킷 설치 (Ollama GPU 가속 활성화에 필수)
  3. 환경 변수 설정 (PATH 및 LD_LIBRARY_PATH 업데이트)

Ollama 모델 실행

기본적인 모델 실행 방법입니다:

# 기본 명령어 형식
ollama run <모델_이름>

# 예시: Llama 2 모델 실행
ollama run llama2

처음 실행 시 모델 다운로드가 자동으로 진행됩니다.

다중 GPU 설정 (쿼드 GPU 환경)

Ollama는 기본적으로 모든 사용 가능한 GPU를 활용합니다. 특정 GPU만 사용하도록 설정하는 방법은 다음과 같습니다:

  • Docker 환경에서 CUDA_VISIBLE_DEVICES 환경 변수를 통해 GPU 지정
  • Ollama 공식 문서를 참조하여 고급 설정 구성

모델 훈련 과정

  1. 훈련 데이터 준비 및 전처리
  2. 모델 아키텍처 설계 (PyTorch, TensorFlow 등 지원)
  3. Ollama API 또는 CLI를 통해 모델 훈련 시작
  4. 다중 GPU 환경에서 모델 훈련 속도 향상 가능

하드웨어 구성 및 고려 사항

쿼드 GPU 서버 구축 팁

효율적인 다중 GPU 서버를 구축하기 위한 고려 사항입니다:

  • 메인보드: 다중 GPU 슬롯 지원, PCIe 레인 수 확인
  • 파워 서플라이: GPU 전력 소비량을 충족할 수 있는 고용량 PSU 필요 (1200W 이상 권장)
  • 냉각 시스템: 효율적인 GPU 냉각을 위한 시스템 구축 필수
  • 케이스: GPU 간 충분한 간격과 원활한 공기 흐름 확보

전력 소비 및 발열 관리

다중 GPU 환경에서 중요한 전력 및 발열 관리 방법입니다:

  • GPU 전력 제한 설정: 전력 소비 감소 및 발열 제어
  • 냉각 시스템 최적화: 수냉 쿨러, 케이스 팬 등 활용
  • 온도 모니터링: GPU 온도 실시간 모니터링 및 관리

네트워크 구성

효율적인 데이터 전송을 위한 네트워크 구성 방법입니다:

  • 고속 네트워크 환경: 모델 및 데이터 전송 속도 향상
  • 원격 접속 환경 설정: SSH, VNC 등을 통한 서버 관리 효율성 증대

마치며

이 글에서는 WAN 2.1 모델과 Ollama를 활용한 로컬 AI 비디오 생성 및 모델 훈련 방법에 대해 알아보았습니다. 여러분의 하드웨어 환경에 맞는 최적의 설정을 통해 AI 작업 효율성을 극대화하시길 바랍니다.

주의할 점은 본 가이드는 WAN 2.1 모델 및 Ollama를 기준으로 작성되었으며, 다른 모델이나 환경에서는 결과가 다를 수 있습니다. 지속적인 모델 업데이트, 드라이버 최적화, Ollama 업데이트를 통해 성능 향상이 가능하니 공식 문서를 참조하시기 바랍니다.

참고 자료

감사의 글

본 가이드 제작에 도움을 주신 Deep Beep Meep 개발자님, Ollama 개발팀, 그리고 모든 오픈소스 커뮤니티 구성원 여러분께 감사드립니다.

728x90