본문 바로가기

AI Insights & Innovations

최신 인공지능 기술과 트렌드를 탐색하는 전문 블로그

영상생성AI/ComfyUI

LTX-Video: 텍스트와 이미지로 고품질 비디오 생성하기

by dma-ai 2025. 3. 11.
728x90

 

LTX-Video 모델 소개 및 사용 가이드

주요 요약

  • LTX-Video는 Lightricks에서 개발한 텍스트-비디오 및 이미지-비디오 생성 AI 모델로, 24FPS, 768x512 해상도의 고품질 비디오를 실시간보다 빠르게 생성합니다.
  • 모델은 다양한 대규모 비디오 데이터셋으로 학습되었으며, 영어로 작성된 상세한 프롬프트가 권장됩니다.
  • 사용 방법은 ComfyUI, 로컬 실행, Diffusers 라이브러리 등을 통해 가능하며, 특정 기술 요구 사항이 있습니다.
  • 한계로는 사회적 편향 증폭 가능성과 프롬프트 스타일에 따른 결과 변동성이 있습니다.

모델 소개 및 사용 가이드

LTX-Video란 무엇인가요?

LTX-Video는 Lightricks에서 개발한 AI 모델로, 텍스트나 이미지를 기반으로 비디오를 생성할 수 있습니다. 이 모델은 24FPS, 768x512 해상도의 고품질 비디오를 실시간보다 빠르게 생성하며, 다양한 비디오 생성 작업에 적합합니다. 예를 들어, "파란 바다와 하얀 파도가 부서지는 풍경" 같은 텍스트로 비디오를 만들거나, 이미지를 기반으로 동영상을 확장할 수 있습니다.

모델의 주요 기능

  • 유형: 확산 기반(diffusion-based) 모델로, 노이즈를 추가하고 제거하는 과정을 통해 비디오를 생성합니다.
  • 지원 기능: 텍스트-비디오, 이미지+텍스트-비디오 생성.
  • 권장 설정: 해상도는 720x1280 이하, 프레임 수는 257 이하로, 각각 32로 나누어 떨어지고 8+1로 나누어 떨어져야 합니다(예: 704x480, 161프레임).

사용 방법

LTX-Video를 사용하는 방법은 여러 가지가 있습니다:

  • ComfyUI 사용: ComfyUI를 통해 모델을 실행하려면 이 지침을 따르세요.
  • 로컬 실행: Python 3.10.5, CUDA 12.2, PyTorch 2.1.2 이상이 필요합니다.
    • 텍스트-비디오 생성 명령어:
      python inference.py --ckpt_dir 'PATH' --prompt "프롬프트" --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED  
      
    • 이미지-비디오 생성 명령어:
      python inference.py --ckpt_dir 'PATH' --prompt "프롬프트" --input_image_path IMAGE_PATH --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED  
      
  • Diffusers 라이브러리 사용:
    • 설치: pip install -U git+https://github.com/huggingface/diffusers
    • 예제 코드:
      from diffusers import LTXVideoPipeline  import torch  pipe = LTXVideoPipeline.from_pretrain("Lightricks/LTX-Video", torch_dtype=torch.float16)  pipe.to("cuda")  prompt = "긴 갈색 머리의 여성이 꽃밭을 걷고 있는 풍경..."  video = pipe(prompt, height=480, width=704, num_frames=161, num_inference_steps=50).videos[0]  video.write_videofile("output.mp4", fps=24)  
      
    상세 문서는 여기에서 확인하세요.

기술 요구 사항

  • Python: 3.10.5
  • CUDA: 12.2
  • PyTorch: 2.1.2 이상
  • 해상도: 32로 나누어 떨어지고 720x1280 이하
  • 프레임 수: 8+1로 나누어 떨어지고 257 이하

한계 및 주의사항

  • 모델은 학습 데이터의 사회적 편향을 증폭할 수 있습니다.
  • 프롬프트 스타일에 따라 결과가 달라질 수 있으며, 항상 원하는 대로 나오지 않을 수 있습니다.
  • 사실적 정보 생성에는 적합하지 않습니다.

추가 자원


상세 보고서

이 보고서는 Hugging Face 페이지에서 제공된 Lightricks의 LTX-Video 모델에 대한 내용을 요약하고, 사용자를 위한 매뉴얼 형식의 블로그 포스트로 작성한 결과를 포함합니다. 아래는 모델의 모든 세부 사항과 사용 지침, 기술적 요구 사항, 한계, 그리고 관련 자원을 포함한 포괄적인 분석입니다.

모델 소개

LTX-Video는 Lightricks에서 개발한 확산 기반(diffusion-based) 텍스트-비디오 및 이미지-비디오 생성 모델입니다. 이 모델은 24FPS, 768x512 해상도의 고품질 비디오를 실시간보다 빠르게 생성하며, 다양한 비디오 생성 작업에 적합합니다. 모델은 대규모이고 다양한 비디오 데이터셋으로 학습되었으며, 영어로 작성된 상세한 프롬프트가 권장됩니다. 예를 들어, "청록색 파도가 검은 바위에 부서지며 하얀 거품이 튀는 풍경" 같은 프롬프트가 제공되었습니다.

설명 세부 사항 정보

모델 이름 LTX-Video
유형 확산 기반 텍스트-비디오 및 이미지-비디오 생성 모델
기능 24FPS, 768x512 해상도의 고품질 비디오 생성, 실시간보다 빠름
학습 데이터 다양한 비디오의 대규모 데이터셋
사용 사례 텍스트-비디오, 이미지+텍스트-비디오
개발자 Lightricks
언어 지원 영어
권장 해상도 및 프레임 720x1280 이하, 프레임 257 이하; 해상도는 32로, 프레임은 8+1로 나누어 떨어져야 함
예시 프롬프트 "청록색 파도가 검은 바위에 부서지며 하얀 거품이 튀는 풍경..."
코드베이스 URL GitHub
ComfyUI 지침 URL GitHub
Hugging Face 모델 다운로드 URL Hugging Face
Diffusers 라이브러리 설치 pip install -U git+https://github.com/huggingface/diffusers
Diffusers 문서 URL Diffusers 문서
지난 달 다운로드 수 349,876

추가적으로, 모델은 사회적 편향을 증폭할 수 있으며, 프롬프트와의 완벽한 일치가 보장되지 않을 수 있습니다. 프롬프트 스타일에 따라 결과가 달라질 수 있으며, 사실적 정보 생성에는 적합하지 않습니다.

모델 아키텍처

LTX-Video는 Diffusers Python 라이브러리와 호환되며, 텍스트-비디오 및 이미지-비디오 생성을 지원합니다. 테스트된 환경은 Python 3.10.5, CUDA 12.2, PyTorch 2.1.2 이상입니다. 권장 해상도는 720x1280 이하로 32로 나누어 떨어져야 하며, 프레임 수는 257 이하로 8+1로 나누어 떨어져야 합니다(예: 704x480, 161프레임). 예시 파라미터는 num_inference_steps 50으로 설정됩니다. 비표준 해상도나 프레임 수의 경우, -1로 패딩하거나 크롭핑이 적용됩니다.

세부 사항 정보

모델 유형 확산 기반 텍스트-비디오 및 이미지-비디오 생성 모델
개발자 Lightricks
언어 영어
호환 라이브러리 Diffusers Python 라이브러리, 텍스트-비디오 및 이미지-비디오 지원
코드베이스 URL GitHub
ComfyUI 지침 URL GitHub
공식 문서 URL Diffusers 문서
모델 다운로드 URL Hugging Face
테스트된 Python 버전 3.10.5
지원 CUDA 버전 12.2
지원 PyTorch 버전 >= 2.1.2
권장 해상도 720x1280 이하, 32로 나누어 떨어짐
권장 프레임 수 257 이하, 8+1로 나누어 떨어짐
예시 너비, 높이, 프레임 너비=704, 높이=480, 프레임=161
예시 num_inference_steps 50

사용 예시

사용 방법은 여러 가지로 나뉩니다. 일반적인 팁으로는 해상도와 프레임 수를 권장 범위 내로 설정하고, 영어로 상세한 프롬프트를 사용하는 것이 좋습니다. ComfyUI를 사용하려면 이 지침을 따르세요. 로컬 실행 시, inference.py 스크립트를 사용하며, 텍스트-비디오와 이미지-비디오 생성 명령어가 제공됩니다. Diffusers 라이브러리를 사용하려면 설치 명령어(pip install -U git+https://github.com/huggingface/diffusers)와 예제 코드가 제공됩니다.

사용 유형 세부 사항 파라미터/예시 URL

직접 사용 제공된 라이선스 하에서 사용. - 라이선스
일반 팁 - 해상도 32로, 프레임 8+1로 나누어 떨어져야 함(예: 257프레임).<br>- 720x1280 이하, 257프레임 이하 권장.<br>- 영어로 상세한 프롬프트(예: "청록색 파도가..."). - 해상도: 32로 나누어 떨어짐<br>- 프레임: 8+1로 나누어 떨어짐, 예: 257<br>- 최대 해상도: 720x1280<br>- 최대 프레임: 257 -
온라인 데모 제공된 링크 통해 접근 가능. - -
ComfyUI ComfyUI 지침 따라 사용. - GitHub
로컬 실행 - 설치 Python 3.10.5, CUDA 12.2, PyTorch >= 2.1.2 테스트. 설치 명령어 제공. - Python: 3.10.5<br>- CUDA: 12.2<br>- PyTorch: >= 2.1.2 -
로컬 실행 - 추론 inference.py 사용해 텍스트-비디오 및 이미지-비디오 생성. - 텍스트-비디오: python inference.py --ckpt_dir 'PATH' --prompt "PROMPT" --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED<br>- 이미지-비디오: python inference.py --ckpt_dir 'PATH' --prompt "PROMPT" --input_image_path IMAGE_PATH --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED GitHub
Diffusers 라이브러리 Diffusers로 텍스트-비디오 및 이미지-비디오 지원. 설치 및 예시 제공. - 텍스트-비디오 예시: 프롬프트(예: "긴 갈색 머리의 여성이..."), 너비: 704, 높이: 480, 프레임: 161, num_inference_steps: 50, fps: 24
- 이미지-비디오 예시: 이미지 URL(예: "https://huggingface.co/datasets/a-r-r-o-w/tiny-meme-dataset-captioned/resolve/main/images/8.png"), 너비: 704, 높이: 480, 프레임: 161, num_inference_steps: 50, fps: 24
Diffusers 문서<br>Diffusers 문서

성능 지표 및 벤치마크

명시적인 벤치마크나 성능 지표는 제공되지 않았으나, 모델은 실시간보다 빠르게 24FPS, 768x512 해상도의 비디오를 생성하며, 720x1280 이하 해상도와 257 이하 프레임에서 최적의 성능을 보입니다.

한계 및 고려사항

모델은 학습 데이터의 사회적 편향을 증폭할 가능성이 있으며, 프롬프트 스타일에 따라 결과가 달라질 수 있습니다. 또한, 사실적 정보 생성에는 적합하지 않으므로, 창작적 용도로 사용하는 것이 적합합니다.

추가 자원

이 보고서는 2025년 3월 10일 기준으로 제공된 정보를 기반으로 작성되었으며, 모든 세부 사항은 Hugging Face 페이지에서 추출되었습니다.

주요 인용

728x90