본문 바로가기

AI Insights & Innovations

최신 인공지능 기술과 트렌드를 탐색하는 전문 블로그

AI/OLLAMA

구형 GTX 1060 그래픽카드 2개로 최신 AI 모델 돌리기: 올라마(Ollama) 셋업 가이드

by dma-ai 2025. 3. 13.
728x90

구형 GTX 1060 그래픽카드 2개로 최신 AI 모델 돌리기: 올라마(Ollama) 셋업 가이드

오래된 그래픽카드를 버리지 마세요! 여러분의 서랍 속에 잠자고 있는 구형 GTX 1060 두 개로 최신 AI 모델을 돌릴 수 있다면 어떨까요? 오늘은 두 개의 GTX 1060 그래픽카드를 활용해 올라마(Ollama)를 실행하는 방법을 상세히 알아보겠습니다.

왜 GTX 1060 듀얼 구성이 의미가 있을까요?

GTX 1060은 비록 출시된 지 몇 년이 지났지만, 각각 6GB의 VRAM을 가지고 있어 두 개를 함께 사용하면 총 12GB의 VRAM을 활용할 수 있습니다. 이는 하나의 카드로는 실행할 수 없는 더 큰 AI 모델을 구동할 수 있는 가능성을 열어줍니다!

올라마(Ollama)란 무엇인가요?

올라마는 로컬 환경에서 대형 언어 모델(LLM)을 쉽게 실행할 수 있게 해주는 오픈소스 도구입니다. Llama 3, Mistral 등 다양한 모델을 지원하며, GPU 가속을 통해 훨씬 빠른 속도로 AI와 대화할 수 있습니다.

주요 포인트

  • 두 개의 GTX 1060을 함께 사용하면 총 12GB VRAM 환경 구성 가능
  • 하나의 GPU 메모리(6GB)보다 큰 모델을 두 GPU에 걸쳐 분할(shard) 실행
  • 적절한 환경 변수 설정으로 두 GPU를 효율적으로 활용 가능

듀얼 GTX 1060으로 올라마 설정하기

1. 시스템 준비하기

우선 시스템에 두 개의 GTX 1060 GPU가 제대로 설치되어 있어야 합니다. 또한 최신 Nvidia 드라이버와 CUDA가 설정되어 있는지 확인하세요.

먼저 올라마 공식 웹사이트에서 소프트웨어를 다운로드하여 설치합니다.

2. GPU ID 확인하기

터미널에서 nvidia-smi 명령어를 실행하여 GPU 목록과 ID를 확인합니다:

nvidia-smi

출력 예시:

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 535.129.03   Driver Version: 535.129.03   CUDA Version: 12.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce GTX 1060    Off | 00000000:01:00.0 Off |                  N/A |
| 30%   35C    P8    15W / 120W |      0MiB /  6144MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   1  GeForce GTX 1060    Off | 00000000:02:00.0 Off |                  N/A |
| 30%   35C    P8    15W / 120W |      0MiB /  6144MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

3. 환경 변수 설정하기

두 GPU를 모두 활용하기 위해 다음 환경 변수를 설정합니다:

export CUDA_VISIBLE_DEVICES=0,1
export OLLAMA_SCHED_SPREAD=1

이 설정을 영구적으로 유지하려면 .bashrc 또는 .zshrc 파일에 추가하세요.

4. 올라마 서버 시작하기

올라마 서버를 실행합니다:

ollama serve

서버가 시작되면 포트 11434에서 API를 제공하며, GPU를 자동으로 감지합니다.

5. 모델 다운로드 및 실행하기

모델을 선택할 때는 VRAM 요구 사항을 확인하세요. 듀얼 GPU 설정의 장점을 활용하려면 하나의 GPU 메모리(6GB)를 초과하는 모델을 선택하는 것이 좋습니다.

모델 다운로드:

ollama pull llama3:13b

모델 실행:

ollama run llama3:13b

6. GPU 사용 확인하기

모델이 두 GPU에 걸쳐 제대로 로드되었는지 확인하려면 다른 터미널에서 nvidia-smi 명령어를 실행하여 메모리 사용량을 확인하세요.

모델 크기와 VRAM 요구 사항

다양한 모델 크기에 따른 VRAM 요구 사항과 GTX 1060 구성으로 실행 가능 여부를 아래 표에 정리했습니다:

모델 크기 VRAM 요구 사항 (GB) 하나의 GTX 1060(6GB)로 실행 가능? 두 개의 GTX 1060(12GB)로 실행 가능?

7B 4-6
13B 8-12 아니오
33B 16-24 아니오 아니오

위 차트에서 볼 수 있듯이, 단일 GTX 1060으로는 7B 모델만 실행할 수 있지만, 듀얼 구성에서는 13B 모델까지 실행할 수 있습니다. 33B 이상의 모델은 더 많은 VRAM이 필요하므로 더 고성능 GPU나 더 많은 GPU가 필요합니다.

 

성능 고려 사항

GTX 1060 듀얼 구성으로 올라마를 사용할 때 몇 가지 고려해야 할 사항이 있습니다:

  1. 모델 분할의 오버헤드: 모델이 두 GPU에 걸쳐 분할되면 PCIe 버스를 통한 데이터 전송으로 인한 오버헤드가 발생할 수 있습니다. 따라서 단일 GPU에서 실행되는 것보다 약간 느릴 수 있습니다.
  2. 모델 선택의 중요성: 6GB 이하의 VRAM을 요구하는 모델은 하나의 GPU에만 로드되므로, 듀얼 GPU 설정의 이점을 보려면 더 큰 모델(예: 13B)을 선택하세요.
  3. 시스템 RAM: 대형 언어 모델을 실행할 때는 GPU VRAM 외에도 충분한 시스템 RAM이 필요합니다. 최소 16GB 이상의 RAM을 권장합니다.

문제 해결 팁

설정 과정에서 문제가 발생한다면 다음을 확인해보세요:

  • Nvidia 드라이버와 CUDA가 최신 버전인지 확인하세요.
  • nvidia-smi 명령으로 두 GPU가 모두 인식되는지 확인하세요.
  • 환경 변수가 올바르게 설정되었는지 확인하세요.
  • 올라마 GitHub 저장소에서 유사한 문제를 검색해보세요.

결론

구형 GTX 1060 그래픽카드 두 개를 활용하면 최신 AI 기술을 경험할 수 있는 놀라운 가능성이 열립니다. 이 설정으로 13B 크기의 모델까지 실행할 수 있어, 버리려던 하드웨어에 새 생명을 불어넣을 수 있습니다.

여러분도 이 가이드를 따라 올라마를 설정하고, 로컬 환경에서 AI의 힘을 경험해보세요. 질문이나 경험이 있으시면 댓글로 공유해주세요!


이 글이 유용했다면 구독과 좋아요 부탁드립니다. 다음 포스팅에서는 이 설정으로 다양한 AI 모델을 비교 분석해보겠습니다. 여러분의 관심에 감사드립니다!

728x90