Cursor에서 로컬 LLM 실행하기: 완벽한 설정 가이드
독점 코드를 작업하거나, 민감한 데이터를 다루거나, 그냥 코드 조각이 내 컴퓨터를 떠나는 게 싫다면 Cursor와 함께 로컬 LLM을 실행하는 건 꽤 괜찮은 선택이에요. 이 가이드에서는 Ollama와 LM Studio의 실용적인 설정 방법을 알려드리고, 전환하기 전에 알아야 할 장단점도 함께 설명할게요.
굳이 로컬 모델을 써야 할까요?
커뮤니티에서 계속해서 나오는 이유는 크게 세 가지예요:
- 프라이버시: 코드가 로컬 네트워크를 절대 벗어나지 않아요. 서드파티 API도 없고, 복잡한 데이터 보관 정책을 해석할 필요도 없죠.
- 비용: 하드웨어 비용을 제외하면 추론은 물론 묵니다. 토큰당 과금도 없고, 사용량 급증으로 인한 추가 비용도 없어요.
- 오프라인 접근: 비행기 안에서도, 보안이 철저한 기업 네트워크에서도, 인터넷이 없는 곳에서도 작동해요.
로컬 모델은 보일러플레이트 생성, 간단한 리팩토링, 그리고 내 코드베이스에 대한 빠른 질문에 강점이 있어요. 모든 작업에 GPT-4가 필요한 건 아니죠.
지원하는 로컬 모델 백엔드
Cursor는 OpenAI나 Anthropic API를 지원하는 것처럼 내장된 로컬 모델 지원을 제공하지는 않아요. 대신, OpenAI 호환 API를 제공하는 로컬 서버를 Cursor에 연결하는 방식을 사용하죠. 가장 흔하게 사용하는 세 가지 옵션은 다음과 같아요:
| 백엔드 | 가장 적합한 경우 | 설정 복잡도 |
|---|---|---|
| Ollama | 빠른 시작, 모델 관리 | 낮음 |
| LM Studio | GUI 선호자, Windows/Mac 사용자 | 낮음 |
| llama.cpp | 최대한의 제어, 최소한의 오버헤드 | 중간 |
이 가이드에서는 대부분의 개발자가 실제로 일상적으로 사용하는 Ollama와 LM Studio에 집중할게요.
Ollama + Cursor: 단계별 가이드
1. Ollama 설치하기
ollama.com에서 다운로드하고 설치하세요. macOS, Linux, Windows에서 백그라운드 서비스로 실행돼요.
정상적으로 설치되었는지 확인필요하다면:
ollama --version
2. 모델 다운로드하기
코드 작성에 적합한 모델로 시작하세요. 커뮤니티에서 인기 있는 모델들은 다음과 같아요:
codellama:7b-code또는codellama:13b-code— 빠르고, 간단한 작업에 적합해요deepseek-coder:6.7b— 코드 자동완성에 강점이 있어요qwen2.5-coder:7b또는14b— 속도와 품질의 좋은 균형을 이루어요
ollama pull deepseek-coder:6.7b
3. OpenAI 호환 서버 시작하기
Ollama는 localhost:11434에서 OpenAI 호환 API를 제공해요. 계속 실행 상태를 유지하세요:
ollama serve
아니면 백그라운드 서비스가 알아서 처리하도록 두어도 돼요.
4. Cursor 설정하기
Cursor 설정(Ctrl/Cmd + ,)을 열고 다음으로 이동하세요:
Settings > Models > OpenAI API Key
기본 URL을 다음과 같이 설정하세요:
http://localhost:11434/v1
API 키 필드는 비워두거나 아무 더미 문자열이나 입력하세요(일부 버전에서는 비어 있으면 안 될 수 있어요).
다운로드한 모델 이름과 일치하도록 선택하세요. 예를 들어:
deepseek-coder:6.7b
Cursor는 OpenAI 채팅 완성 형식으로 요청을 별냅니다. Ollama의 /v1 엔드포인트가 이를 자동으로 변환해요. 별도의 프록시가 필요하지 않아요.
5. 테스트하기
파일을 열고 Ctrl/Cmd + L을 눌러 채팅 패널을 열어보세요. 간단한 질문을 항해 보세요:
Write a Python function that reverses a string without using slicing.
응답이 오면 연결된 거예요. 응답이 없다면 ollama serve가 실행 중인지, 모델 이름이 정확히 일치하는지 확인하세요.
LM Studio + Cursor: 단계별 가이드
LM Studio는 모델을 다운로드하고 전환하는 GUI를 원한다면 더 나은 선택이에요.
1. LM Studio 설치하기
lmstudio.ai에서 다운로드하세요. macOS, Windows, Linux에서 사용할 수 있어요.
2. 모델 다운로드하기
LM Studio를 열고 Discover 탭으로 가서 코드 모델을 검색하세요. 좋은 선택지는 다음과 같아요:
TheBloke/CodeLlama-7B-Instruct-GGUFTheBloke/DeepSeek-Coder-6.7B-Instruct-GGUFQwen/Qwen2.5-Coder-7B-Instruct-GGUF
크기와 품질의 균형을 위해 Q4_K_M 또는 Q5_K_M 양자화 버전을 다운로드하세요.
3. 로컬 서버 시작하기
LM Studio에서 왼쪽의 Local Server 탭으로 이동하세요. 모델을 로드한 후 Start Server를 클릭하세요.
기본적으로 다음 주소에서 실행돼요:
http://localhost:1234/v1
4. Cursor 설정하기
Ollama와 동일한 과정이에요. Cursor 설정 > Models > OpenAI API Key에서 다음과 같이 설정하세요:
http://localhost:1234/v1
모델 이름 필드는 local-model이나 LM Studio가 기대하는 플레이스홀더로 남겨두면 돼요. LM Studio는 모델 이름을 무시하고 현재 로드된 모델을 사용하거든요.
5. 확인하기
같은 테스트 프롬프트로 실행해 보세요. LM Studio의 서버 로그에 들어오는 요청이 표시되어 디버깅에 유용해요.
잘 되는 것과 안 되는 것
로컬 모델은 Claude 3.5 Sonnet이나 GPT-4o를 완벽히 대체할 수는 없어요. 솔직한 비교를 보여드릴게요:
| 작업 | 로컬 7B-13B | 클라우드 (Claude/GPT-4) |
|---|---|---|
| 간단한 리팩토링 | 좋음 | 우수함 |
| 보일러플레이트 생성 | 좋음 | 우수함 |
| 복잡한 아키텍처 결정 | 약함 | 우수함 |
| 대규모 코드베이스 이해 | 약함 | 우수함 |
| 다중 파일 편집 | 약함 | 좋음 |
| 속도 (GPU 사용 시) | 빠름 | 네트워크 의존 |
| 속도 (CPU 전용) | 느림 | 네트워크 의존 |
CPU에서 13B 모델을 실행하면 응답당 1030초가 걸릴 수 있어요. 최신 GPU(RTX 3060 이상)를 사용하면 13초로 줄어들어요. 기대치를 현실적으로 설정하세요.
하이브리드 전략: 실용적인 접근법
로컬 모델을 계속 사용하는 대부분의 개발자는 완전히 전환하기보다 하이브리드 워크플로우를 사용해요:
- 빠르고 안전한 작업에는 로컬 모델: 린트 수정, 이름 변경, 간단한 정규식, 함수 설명.
- 무거운 작업에는 클라우드 모델: 새 기능 설계, 까다로운 문제 디버깅, 크로스 파일 리팩토링.
- 프로젝트에 따라 전환: 오픈소스나 민감하지 않은 코드 → 클라우드; 독점 코드나 규제 대상 코드 → 로컬.
Cursor는 IDE를 재시작하지 않고도 설정에서 모델을 변경할 수 있어서 이게 쉬워요. 일부 사용자는 로컬과 클라우드를 각각 가리킨 두 개의 Cursor 창을 띄워두기도 하지만, 이건 기능이라기보다는 우회 방법이에요.
Apple Silicon이 탑재된 Mac이 있다면 Ollama가 Neural Engine을 잘 활용해요. MacBook Pro M3 Pro는 배터리를 별도 GPU처럼 소모하지 않으면서도 13B 모델을 사용 가능한 속도로 실행할 수 있어요.
문제 해결
"Connection refused" 오류
- 서버가 실행 중인지 확인하세요(
ollama serve또는 LM Studio 서버 탭). - 포트를 확인하세요: Ollama는 11434, LM Studio는 1234를 사용해요.
- 방화벽이나 기업 프록시를 확인하세요.
느린 응답
- 더 작은 모델이나 더 높은 양자화(Q5 대신 Q4)를 사용하세요.
- GPU가 사용 중인지 확인하세요. Ollama 로그에 로드 시
GPU또는CPU가 표시돼요. - 다른 GPU 집약적인 앱을 닫으세요.
엉뚱한 출력
- 모델 이름이 정확히 일치하지 않을 수 있어요. Ollama는 정확한 이름을 까다롭게 요구해요.
- 일부 모델은 특정 프롬프트 형식이 필요해요. 채팅용으로는 Instruct 모델이 기본 모델보다 더 잘 작동해요.
Cursor가 로컬 설정을 무시하는 경우
- OpenAI 기본 URL을 재정의하고 있는지 확인하세요. 커스텀 모델을 추가하는 것만으로는 충분하지 않아요.
- 기본 URL을 변경한 후 Cursor를 재시작하세요.
마무리
Cursor와 함께하는 로컬 LLM은 오늘날 일부 작업에 대해 실용적인 선택이에요. 클라우드 모델만큼 능숙하지는 않지만, 프라이버시를 중시하는 개발자나 제한된 환경에서 작업하는 사람들에게는 종종 충분히 좋습니다. 빠른 설정을 원한다면 Ollama로 시작하고, GUI를 선호한다면 LM Studio를 선택하세요. 프로젝트에 맞는 모델과 워크플로우를 찾기 전에 몇 번의 시도가 필요할 거예요.