Whisper-WebUI: 자동 자막 생성 및 번역을 위한 완벽 가이드 (2025년 최신)
음성을 자동으로 텍스트화하고 자막을 생성하는 작업은 콘텐츠 제작자에게 필수적인 과정입니다. Whisper-WebUI는 OpenAI의 Whisper 모델을 웹 인터페이스로 쉽게 사용할 수 있게 해주는 강력한 도구입니다. 이 글에서는 Whisper-WebUI의 설치부터 고급 기능까지 상세히 알아보겠습니다.
📋 목차
Whisper-WebUI 개요
Whisper-WebUI는 OpenAI의 Whisper 음성 인식 모델을 기반으로 하는 웹 기반 사용자 인터페이스로, 주로 다음과 같은 목적으로 사용됩니다:
- 비디오/오디오 파일의 자동 자막 생성
- 생성된 자막의 번역 지원
- 효율적인 음성-텍스트(STT) 변환
이 도구는 Gradio를 사용해 브라우저 기반 인터페이스를 제공하며, 특히 콘텐츠 제작자와 번역가에게 유용합니다.
설치 가이드
전제 조건
Whisper-WebUI를 사용하기 위해서는 다음 소프트웨어가 필요합니다:
- Git: 저장소 복제용
- Python 3.10-3.12: 호환 가능한 Python 버전
- FFmpeg: 오디오/비디오 처리에 필수
설치 단계
# 1. GitHub에서 저장소 클론
git clone https://github.com/jhj0517/Whisper-WebUI.git
# 2. 프로젝트 디렉토리로 이동
cd Whisper-WebUI
# 3. 필요한 종속성 설치
pip install -r requirements.txt
💡 팁: 가상 환경(venv)을 사용하면 시스템 Python 환경과 충돌 없이 설치할 수 있습니다.
실행 방법
Whisper-WebUI는 다음 두 가지 방법으로 실행할 수 있습니다:
1. 스크립트 사용
- Windows: start-webui.bat 실행
- Linux/macOS: start-webui.sh 실행
2. 명령줄 인수 사용
python app.py --host 0.0.0.0 --port 7860
더 많은 명령줄 옵션은 GitHub 위키에서 확인할 수 있습니다.
주요 기능 및 장점
faster-whisper 모델 사용
Whisper-WebUI는 기본적으로 faster-whisper를 사용하여 처리 속도와 자원 효율성을 극대화합니다:
모델 GPU 메모리 CPU 메모리 처리 시간
원본 Whisper | 11,325MB | 9,439MB | 4분 30초 |
faster-whisper | 4,755MB | 3,244MB | 54초 |
모델 다운로드 및 통합
- Hugging Face 저장소 ID를 입력하여 모델 자동 다운로드 지원
- 예: deepdml/faster-whisper-large-v3-turbo-ct2
- 사용자 정의 fine-tuned 모델을 models/Whisper/ 디렉토리에 배치 가능
자막 번역 기능
Whisper-WebUI는 Facebook NLLB 모델을 사용하여 다양한 언어로 자막을 번역할 수 있습니다. 이는 다국어 콘텐츠 제작자에게 특히 유용합니다.
자막 번역 설정
자막 번역 설정은 configs/translation.yaml 파일에서 관리할 수 있습니다. 기본적으로 다음과 같은 설정이 포함되어 있습니다:
# 번역 설정 예시
model: "facebook/nllb-200-distilled-600M" # 사용할 번역 모델
source_language: "eng_Latn" # 소스 언어 코드
target_language: "kor_Hang" # 목표 언어 코드 (한국어)
batch_size: 8 # 배치 처리 크기
💡 참고: 번역 품질을 높이려면 더 큰 모델(예: facebook/nllb-200-3.3B)을 사용하세요.
Docker 및 Colab 환경에서 실행
Docker 설정
Docker를 통해 Whisper-WebUI를 실행하려면:
- Docker Desktop 설치
- 다음 명령어 실행:
# docker-compose.yaml 파일이 있는 디렉토리에서
docker-compose up -d
Colab 노트북
Google Colab에서 Whisper-WebUI를 실행하려면:
- Colab 노트북 링크 접속
- 노트북 지시에 따라 실행
이 방법은 고사양 GPU가 없는 사용자에게 특히 유용합니다.
고급 사용법
명령줄 인수 옵션
다양한 명령줄 인수를 통해 Whisper-WebUI의 동작을 조정할 수 있습니다:
python app.py --whisper_type "faster" --whisper_model "large-v3" --server_name "0.0.0.0" --port 8080
주요 인수 목록:
- --whisper_type: 사용할 Whisper 구현체 (기본값: "faster")
- --whisper_model: 사용할 모델 크기 (기본값: "large-v2")
- --server_name: 호스트 주소 (기본값: "127.0.0.1")
- --port: 포트 번호 (기본값: 7860)
- --diarize: 화자 구분 기능 활성화 (기본값: False)
백엔드 REST API 활용
Whisper-WebUI는 REST API를 통해 프로그래밍 방식으로 접근할 수 있습니다. API 경로는 다음과 같습니다:
- /api/transcribe: 음성-텍스트 변환
- /api/translate: 자막 번역
- /api/models: 사용 가능한 모델 목록
FAQ
Q: 어떤 모델 크기를 선택해야 할까요?
A: 일반적으로 "large-v3"가 정확도와 속도의 균형이 좋습니다. 리소스가 제한적이라면 "medium" 또는 "small"을, 최고의 정확도를 원한다면 "large-v3"를 권장합니다.
Q: GPU 없이도 사용할 수 있나요?
A: 네, CPU에서도 실행 가능하지만 처리 속도가 느립니다. 긴 영상에는 GPU 사용을 권장합니다.
Q: 지원되는 입력 파일 형식은 무엇인가요?
A: MP4, MP3, WAV, M4A 등 FFmpeg가 지원하는 대부분의 오디오/비디오 형식이 지원됩니다.
Q: 한국어 인식 정확도는 어떤가요?
A: Whisper 모델은 한국어를 포함한 다양한 언어에서 높은 정확도를 보이지만, 방언이나 전문 용어가 많은 경우 정확도가 떨어질 수 있습니다.
최종 요약 및 앞으로의 개발 계획
Whisper-WebUI는 효율적인 자동 자막 생성 도구로, faster-whisper의 도입으로 처리 속도와 메모리 효율성이 크게 향상되었습니다. 다양한 실행 옵션(Docker, Colab)과 번역 기능은 사용자 경험을 더욱 향상시킵니다.
향후 개발 계획에는 다음과 같은 기능이 포함되어 있습니다:
- DeepL API 통합
- NLLB 모델 개선
- UVR(Ultimate Vocal Remover) 통합
- 실시간 전사 기능
'영상생성AI > 비디오 오디오 생성 Site' 카테고리의 다른 글
MIDI: 단일 이미지에서 3D 장면 생성하는 최첨단 기술 가이드 (2) | 2025.03.18 |
---|---|
Remade Effects: 이미지를 생동감 있는 비디오로 변환하는 AI 도구 완벽 가이드 (0) | 2025.03.18 |
Captions.ai API 완벽 가이드: 비디오 생성부터 편집까지 모든 것 (1) | 2025.03.18 |
CSM-1B: 대화형 음성 모델 설정 및 사용 완벽 가이드 (2025) (0) | 2025.03.18 |
Tight Inversion 텍스트 기반 이미지 편집 완벽 가이드: 단계별 튜토리얼 (1) | 2025.03.18 |