CursorでローカルLLMを動かす:完全セットアップガイド
独自のコードを書いていたり、機密データを扱っていたり、あるいは単にコードスニペットを自分のマシンから出したくないだけの場合、CursorでローカルLLMを動かすのは有力な選択肢です。このガイドでは、OllamaとLM Studioの実用的なセットアップ手順と、切り替える前に知っておくべきトレードオフについて解説します。
なぜローカルモデルを使うのか?
コミュニティで何度も挙がる3つの理由があります:
- プライバシー:コードはローカルネットワークを離れることがありません。サードパーティAPIもなく、データ保持ポリシーを読み解く必要もありません。
- コスト:ハードウェア費用を除けば、推論は無料です。トークン課金もなく、使用量の急増も心配ありません。
- オフラインアクセス:飛行機の中、閉鎖された企業ネットワーク、インターネットがない場所でも動作します。
ローカルモデルは、ボイラープレート生成、簡単なリファクタリング、自分のコードベースに関する素早い質問などで真価を発揮します。すべてにGPT-4が必要というわけではありません。
サポートされているローカルモデルバックエンド
Cursorは、OpenAIやAnthropic APIをサポートするのと同じように、ローカルモデルをネイティブにサポートしているわけではありません。代わりに、OpenAI互換APIを提供するローカルサーバーをCursorに指定します。最も一般的な3つの選択肢は以下の通りです:
| バックエンド | 向いている人 | セットアップの複雑さ |
|---|---|---|
| Ollama | すぐに始めたい、モデル管理を簡単にしたい人 | 低 |
| LM Studio | GUIが好き、Windows/Macユーザー | 低 |
| llama.cpp | 最大限のコントロール、最小限のオーバーヘッドを求める人 | 中 |
このガイドでは、開発者が実際に日々使っているOllamaとLM Studioに焦点を当てます。
Ollama + Cursor:ステップバイステップ
1. Ollamaをインストールする
ollama.comからダウンロードしてインストールします。macOS、Linux、Windowsでバックグラウンドサービスとして動作します。
動作確認:
ollama --version
2. モデルをプルする
コードに強いモデルから始めましょう。コミュニティのおすすめは以下の通りです:
codellama:7b-codeまたはcodellama:13b-code— 速く、簡単なタスクに十分deepseek-coder:6.7b— コード補完に強いqwen2.5-coder:7bまたは14b— 速度と品質のバランスが良い
ollama pull deepseek-coder:6.7b
3. OpenAI互換サーバーを起動する
Ollamaは localhost:11434 でOpenAI互換APIを公開します。起動し続けてください:
ollama serve
またはバックグラウンドサービスに任せます。
4. Cursorを設定する
Cursorの設定を開き(Ctrl/Cmd + ,)、以下に移動します:
Settings > Models > OpenAI API Key
ベースURLを以下のように設定します:
http://localhost:11434/v1
APIキー欄は空白のままにするか、ダミーの文字列を入力してください(一部のバージョンでは空でない値が必要です)。
プルしたモデル名と一致する名前を選択します。例えば:
deepseek-coder:6.7b
CursorはOpenAIのチャット補完形式でリクエストを送信します。Ollamaの /v1 エンドポイントはこれを自動的に変換します。プロキシは不要です。
5. テストする
ファイルを開き、Ctrl/Cmd + L を押してチャットパネルを開きます。簡単な質問をしてみましょう:
スライシングを使わずに文字列を反転するPython関数を書いてください。
返答があれば接続されています。応答がない場合は、ollama serve が動作しているか、モデル名が正確に一致しているか確認してください。
LM Studio + Cursor:ステップバイステップ
モデルのダウンロードや切り替えにGUIが欲しい場合は、LM Studioがより適しています。
1. LM Studioをインストールする
lmstudio.aiからダウンロードします。macOS、Windows、Linuxに対応しています。
2. モデルをダウンロードする
LM Studioを開き、左のDiscoverタブに移動してコードモデルを検索します。良い選択肢は以下の通りです:
TheBloke/CodeLlama-7B-Instruct-GGUFTheBloke/DeepSeek-Coder-6.7B-Instruct-GGUFQwen/Qwen2.5-Coder-7B-Instruct-GGUF
サイズと品質のバランスを取るため、Q4_K_MまたはQ5_K_Mの量子化版をダウンロードしてください。
3. ローカルサーバーを起動する
LM Studioで、左の Local Server タブに移動します。モデルを読み込み、Start Server をクリックします。
デフォルトでは以下で動作します:
http://localhost:1234/v1
4. Cursorを設定する
Ollamaと同じ手順です。Cursor Settings > Models > OpenAI API Key で以下を設定します:
http://localhost:1234/v1
モデル名欄は local-model またはLM Studioが期待するプレースホルダーのままで構いません。LM Studioはモデル名を無視し、現在読み込まれているモデルを使用します。
5. 検証する
同じテストプロンプトを実行します。LM Studioのサーバーログには受信したリクエストが表示されるため、デバッグに便利です。
できることとできないこと
ローカルモデルはClaude 3.5 SonnetやGPT-4oの完全な代替にはなりません。正直な評価は以下の通りです:
| タスク | ローカル 7B-13B | クラウド (Claude/GPT-4) |
|---|---|---|
| 簡単なリファクタリング | 良好 | 優秀 |
| ボイラープレート生成 | 良好 | 優秀 |
| 複雑なアーキテクチャ判断 | 弱い | 優秀 |
| 大規模コードベースの理解 | 弱い | 優秀 |
| 複数ファイルの編集 | 弱い | 良好 |
| 速度(GPUあり) | 速い | ネットワーク依存 |
| 速度(CPUのみ) | 遅い | ネットワーク依存 |
CPUで13Bモデルを動かすと、1回の応答に10〜30秒かかることがあります。現代のGPU(RTX 3060以上)なら1〜3秒に短縮できます。期待値は適切に設定してください。
ハイブリッド戦略:実用的なアプローチ
ローカルモデルを使い続けるほとんどの開発者は、完全移行ではなくハイブリッドなワークフローを採用しています:
- ローカルモデルで素早く安全なタスクを:lint修正、リネーム、簡単な正規表現、関数の説明。
- クラウドモデルで重い作業を:新機能の設計、難しい問題のデバッグ、複数ファイルにまたがるリファクタリング。
- プロジェクトに応じて切り替え:オープンソースや機密性の低いコード → クラウド;独自コードや規制対象のコード → ローカル。
Cursorは設定を変更するだけでモデルを切り替えられるため、IDEを再起動する必要はありません。一部のユーザーは2つのCursorウィンドウを開いておく — 1つはローカル向け、1つはクラウド向け — といった使い方もしていますが、これは機能というよりworkaroundです。
Apple SiliconのMacをお持ちの場合、OllamaはNeural Engineを効果的に活用します。MacBook Pro M3 Proなら、13Bモデルを実用的な速度で動かせ、ディスクリートGPUのようにバッテリーを激しく消費することもありません。
トラブルシューティング
"Connection refused" エラー
- サーバーが動作しているか確認してください(
ollama serveまたはLM Studioのサーバータブ)。 - ポートを確認:Ollamaは11434、LM Studioは1234です。
- ファイアウォールや企業プロキシを確認してください。
応答が遅い
- より小さいモデルや、より低い量子化(Q5の代わりにQ4)を使用してください。
- GPUが使用されているか確認してください。Ollamaのログには読み込み時に
GPUまたはCPUと表示されます。 - 他のGPU負荷の高いアプリを閉じてください。
意味不明な出力
- モデル名が一致していない可能性があります。Ollamaは正確な名前を要求します。
- 一部のモデルには特定のプロンプト形式が必要です。チャットにはInstructモデルの方がbaseモデルより適しています。
Cursorがローカル設定を無視する
- OpenAIのベースURLを上書きしているか確認してください。カスタムモデルを追加しただけではありません。
- ベースURLを変更した後、Cursorを再起動してください。
まとめ
CursorでのローカルLLMは、一部のタスクにおいて現時点で実用的です。クラウドモデルほどの能力はありませんが、プライバシーを重視する開発者や制限された環境で働く人にとって、しばしば十分な性能を発揮します。セットアップの速さを重視するならOllama、GUIを好むならLM Studioがおすすめです。自分のプロジェクトに合うモデル選択とワークフローが見つかるまで、いくつか試行錯誤が必要です。