구형 GTX 1060 그래픽카드 2개로 최신 AI 모델 돌리기: 올라마(Ollama) 셋업 가이드
오래된 그래픽카드를 버리지 마세요! 여러분의 서랍 속에 잠자고 있는 구형 GTX 1060 두 개로 최신 AI 모델을 돌릴 수 있다면 어떨까요? 오늘은 두 개의 GTX 1060 그래픽카드를 활용해 올라마(Ollama)를 실행하는 방법을 상세히 알아보겠습니다.
왜 GTX 1060 듀얼 구성이 의미가 있을까요?
GTX 1060은 비록 출시된 지 몇 년이 지났지만, 각각 6GB의 VRAM을 가지고 있어 두 개를 함께 사용하면 총 12GB의 VRAM을 활용할 수 있습니다. 이는 하나의 카드로는 실행할 수 없는 더 큰 AI 모델을 구동할 수 있는 가능성을 열어줍니다!
올라마(Ollama)란 무엇인가요?
올라마는 로컬 환경에서 대형 언어 모델(LLM)을 쉽게 실행할 수 있게 해주는 오픈소스 도구입니다. Llama 3, Mistral 등 다양한 모델을 지원하며, GPU 가속을 통해 훨씬 빠른 속도로 AI와 대화할 수 있습니다.
주요 포인트
- 두 개의 GTX 1060을 함께 사용하면 총 12GB VRAM 환경 구성 가능
- 하나의 GPU 메모리(6GB)보다 큰 모델을 두 GPU에 걸쳐 분할(shard) 실행
- 적절한 환경 변수 설정으로 두 GPU를 효율적으로 활용 가능
듀얼 GTX 1060으로 올라마 설정하기
1. 시스템 준비하기
우선 시스템에 두 개의 GTX 1060 GPU가 제대로 설치되어 있어야 합니다. 또한 최신 Nvidia 드라이버와 CUDA가 설정되어 있는지 확인하세요.
먼저 올라마 공식 웹사이트에서 소프트웨어를 다운로드하여 설치합니다.
2. GPU ID 확인하기
터미널에서 nvidia-smi 명령어를 실행하여 GPU 목록과 ID를 확인합니다:
nvidia-smi
출력 예시:
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 535.129.03 Driver Version: 535.129.03 CUDA Version: 12.2 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 GeForce GTX 1060 Off | 00000000:01:00.0 Off | N/A |
| 30% 35C P8 15W / 120W | 0MiB / 6144MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 1 GeForce GTX 1060 Off | 00000000:02:00.0 Off | N/A |
| 30% 35C P8 15W / 120W | 0MiB / 6144MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
3. 환경 변수 설정하기
두 GPU를 모두 활용하기 위해 다음 환경 변수를 설정합니다:
export CUDA_VISIBLE_DEVICES=0,1
export OLLAMA_SCHED_SPREAD=1
이 설정을 영구적으로 유지하려면 .bashrc 또는 .zshrc 파일에 추가하세요.
4. 올라마 서버 시작하기
올라마 서버를 실행합니다:
ollama serve
서버가 시작되면 포트 11434에서 API를 제공하며, GPU를 자동으로 감지합니다.
5. 모델 다운로드 및 실행하기
모델을 선택할 때는 VRAM 요구 사항을 확인하세요. 듀얼 GPU 설정의 장점을 활용하려면 하나의 GPU 메모리(6GB)를 초과하는 모델을 선택하는 것이 좋습니다.
모델 다운로드:
ollama pull llama3:13b
모델 실행:
ollama run llama3:13b
6. GPU 사용 확인하기
모델이 두 GPU에 걸쳐 제대로 로드되었는지 확인하려면 다른 터미널에서 nvidia-smi 명령어를 실행하여 메모리 사용량을 확인하세요.
모델 크기와 VRAM 요구 사항
다양한 모델 크기에 따른 VRAM 요구 사항과 GTX 1060 구성으로 실행 가능 여부를 아래 표에 정리했습니다:
모델 크기 VRAM 요구 사항 (GB) 하나의 GTX 1060(6GB)로 실행 가능? 두 개의 GTX 1060(12GB)로 실행 가능?
7B | 4-6 | 예 | 예 |
13B | 8-12 | 아니오 | 예 |
33B | 16-24 | 아니오 | 아니오 |
위 차트에서 볼 수 있듯이, 단일 GTX 1060으로는 7B 모델만 실행할 수 있지만, 듀얼 구성에서는 13B 모델까지 실행할 수 있습니다. 33B 이상의 모델은 더 많은 VRAM이 필요하므로 더 고성능 GPU나 더 많은 GPU가 필요합니다.
성능 고려 사항
GTX 1060 듀얼 구성으로 올라마를 사용할 때 몇 가지 고려해야 할 사항이 있습니다:
- 모델 분할의 오버헤드: 모델이 두 GPU에 걸쳐 분할되면 PCIe 버스를 통한 데이터 전송으로 인한 오버헤드가 발생할 수 있습니다. 따라서 단일 GPU에서 실행되는 것보다 약간 느릴 수 있습니다.
- 모델 선택의 중요성: 6GB 이하의 VRAM을 요구하는 모델은 하나의 GPU에만 로드되므로, 듀얼 GPU 설정의 이점을 보려면 더 큰 모델(예: 13B)을 선택하세요.
- 시스템 RAM: 대형 언어 모델을 실행할 때는 GPU VRAM 외에도 충분한 시스템 RAM이 필요합니다. 최소 16GB 이상의 RAM을 권장합니다.
문제 해결 팁
설정 과정에서 문제가 발생한다면 다음을 확인해보세요:
- Nvidia 드라이버와 CUDA가 최신 버전인지 확인하세요.
- nvidia-smi 명령으로 두 GPU가 모두 인식되는지 확인하세요.
- 환경 변수가 올바르게 설정되었는지 확인하세요.
- 올라마 GitHub 저장소에서 유사한 문제를 검색해보세요.
결론
구형 GTX 1060 그래픽카드 두 개를 활용하면 최신 AI 기술을 경험할 수 있는 놀라운 가능성이 열립니다. 이 설정으로 13B 크기의 모델까지 실행할 수 있어, 버리려던 하드웨어에 새 생명을 불어넣을 수 있습니다.
여러분도 이 가이드를 따라 올라마를 설정하고, 로컬 환경에서 AI의 힘을 경험해보세요. 질문이나 경험이 있으시면 댓글로 공유해주세요!
이 글이 유용했다면 구독과 좋아요 부탁드립니다. 다음 포스팅에서는 이 설정으로 다양한 AI 모델을 비교 분석해보겠습니다. 여러분의 관심에 감사드립니다!
'AI > OLLAMA' 카테고리의 다른 글
"Ryzen 9 8945HS에서 DeepSeek R1 AI 모델 로컬 실행 성능 분석 - 시스템 요구사항 및 최적화 설정 가이드" (0) | 2025.03.15 |
---|---|
Ollama로 2025년 최신 Gemma 3 모델 사용하기: 완벽 가이드 (0) | 2025.03.13 |
AMD RX580 두 개로 ollama 실행하기: 가능할까? (1) | 2025.03.13 |