CursorでローカルLLMを動かす：完全セットアップガイド

独自のコードを書いていたり、機密データを扱っていたり、あるいは単にコードスニペットを自分のマシンから出したくないだけの場合、CursorでローカルLLMを動かすのは有力な選択肢です。このガイドでは、OllamaとLM Studioの実用的なセットアップ手順と、切り替える前に知っておくべきトレードオフについて解説します。

なぜローカルモデルを使うのか？

コミュニティで何度も挙がる3つの理由があります：

プライバシー：コードはローカルネットワークを離れることがありません。サードパーティAPIもなく、データ保持ポリシーを読み解く必要もありません。
コスト：ハードウェア費用を除けば、推論は無料です。トークン課金もなく、使用量の急増も心配ありません。
オフラインアクセス：飛行機の中、閉鎖された企業ネットワーク、インターネットがない場所でも動作します。

ヒント

ローカルモデルは、ボイラープレート生成、簡単なリファクタリング、自分のコードベースに関する素早い質問などで真価を発揮します。すべてにGPT-4が必要というわけではありません。

サポートされているローカルモデルバックエンド

Cursorは、OpenAIやAnthropic APIをサポートするのと同じように、ローカルモデルをネイティブにサポートしているわけではありません。代わりに、OpenAI互換APIを提供するローカルサーバーをCursorに指定します。最も一般的な3つの選択肢は以下の通りです：

バックエンド	向いている人	セットアップの複雑さ
Ollama	すぐに始めたい、モデル管理を簡単にしたい人	低
LM Studio	GUIが好き、Windows/Macユーザー	低
llama.cpp	最大限のコントロール、最小限のオーバーヘッドを求める人	中

このガイドでは、開発者が実際に日々使っているOllamaとLM Studioに焦点を当てます。

Ollama + Cursor：ステップバイステップ

1. Ollamaをインストールする

ollama.comからダウンロードしてインストールします。macOS、Linux、Windowsでバックグラウンドサービスとして動作します。

動作確認：

ollama --version

2. モデルをプルする

コードに強いモデルから始めましょう。コミュニティのおすすめは以下の通りです：

codellama:7b-code または codellama:13b-code — 速く、簡単なタスクに十分
deepseek-coder:6.7b — コード補完に強い
qwen2.5-coder:7b または 14b — 速度と品質のバランスが良い

ollama pull deepseek-coder:6.7b

3. OpenAI互換サーバーを起動する

Ollamaは localhost:11434 でOpenAI互換APIを公開します。起動し続けてください：

ollama serve

またはバックグラウンドサービスに任せます。

4. Cursorを設定する

Cursorの設定を開き（Ctrl/Cmd + ,）、以下に移動します：

Settings > Models > OpenAI API Key

ベースURLを以下のように設定します：

http://localhost:11434/v1

APIキー欄は空白のままにするか、ダミーの文字列を入力してください（一部のバージョンでは空でない値が必要です）。

プルしたモデル名と一致する名前を選択します。例えば：

deepseek-coder:6.7b

備考

CursorはOpenAIのチャット補完形式でリクエストを送信します。Ollamaの /v1 エンドポイントはこれを自動的に変換します。プロキシは不要です。

5. テストする

ファイルを開き、Ctrl/Cmd + L を押してチャットパネルを開きます。簡単な質問をしてみましょう：

スライシングを使わずに文字列を反転するPython関数を書いてください。

返答があれば接続されています。応答がない場合は、ollama serve が動作しているか、モデル名が正確に一致しているか確認してください。

LM Studio + Cursor：ステップバイステップ

モデルのダウンロードや切り替えにGUIが欲しい場合は、LM Studioがより適しています。

1. LM Studioをインストールする

lmstudio.aiからダウンロードします。macOS、Windows、Linuxに対応しています。

2. モデルをダウンロードする

LM Studioを開き、左のDiscoverタブに移動してコードモデルを検索します。良い選択肢は以下の通りです：

TheBloke/CodeLlama-7B-Instruct-GGUF
TheBloke/DeepSeek-Coder-6.7B-Instruct-GGUF
Qwen/Qwen2.5-Coder-7B-Instruct-GGUF

サイズと品質のバランスを取るため、Q4_K_MまたはQ5_K_Mの量子化版をダウンロードしてください。

3. ローカルサーバーを起動する

LM Studioで、左の Local Server タブに移動します。モデルを読み込み、Start Server をクリックします。

デフォルトでは以下で動作します：

http://localhost:1234/v1

4. Cursorを設定する

Ollamaと同じ手順です。Cursor Settings > Models > OpenAI API Key で以下を設定します：

http://localhost:1234/v1

モデル名欄は local-model またはLM Studioが期待するプレースホルダーのままで構いません。LM Studioはモデル名を無視し、現在読み込まれているモデルを使用します。

5. 検証する

同じテストプロンプトを実行します。LM Studioのサーバーログには受信したリクエストが表示されるため、デバッグに便利です。

できることとできないこと

ローカルモデルはClaude 3.5 SonnetやGPT-4oの完全な代替にはなりません。正直な評価は以下の通りです：

タスク	ローカル 7B-13B	クラウド (Claude/GPT-4)
簡単なリファクタリング	良好	優秀
ボイラープレート生成	良好	優秀
複雑なアーキテクチャ判断	弱い	優秀
大規模コードベースの理解	弱い	優秀
複数ファイルの編集	弱い	良好
速度（GPUあり）	速い	ネットワーク依存
速度（CPUのみ）	遅い	ネットワーク依存

警告

CPUで13Bモデルを動かすと、1回の応答に10〜30秒かかることがあります。現代のGPU（RTX 3060以上）なら1〜3秒に短縮できます。期待値は適切に設定してください。

ハイブリッド戦略：実用的なアプローチ

ローカルモデルを使い続けるほとんどの開発者は、完全移行ではなくハイブリッドなワークフローを採用しています：

ローカルモデルで素早く安全なタスクを：lint修正、リネーム、簡単な正規表現、関数の説明。
クラウドモデルで重い作業を：新機能の設計、難しい問題のデバッグ、複数ファイルにまたがるリファクタリング。
プロジェクトに応じて切り替え：オープンソースや機密性の低いコード → クラウド；独自コードや規制対象のコード → ローカル。

Cursorは設定を変更するだけでモデルを切り替えられるため、IDEを再起動する必要はありません。一部のユーザーは2つのCursorウィンドウを開いておく — 1つはローカル向け、1つはクラウド向け — といった使い方もしていますが、これは機能というよりworkaroundです。

ヒント

Apple SiliconのMacをお持ちの場合、OllamaはNeural Engineを効果的に活用します。MacBook Pro M3 Proなら、13Bモデルを実用的な速度で動かせ、ディスクリートGPUのようにバッテリーを激しく消費することもありません。

トラブルシューティング

"Connection refused" エラー

サーバーが動作しているか確認してください（ollama serve またはLM Studioのサーバータブ）。
ポートを確認：Ollamaは11434、LM Studioは1234です。
ファイアウォールや企業プロキシを確認してください。

応答が遅い

より小さいモデルや、より低い量子化（Q5の代わりにQ4）を使用してください。
GPUが使用されているか確認してください。Ollamaのログには読み込み時に GPU または CPU と表示されます。
他のGPU負荷の高いアプリを閉じてください。

意味不明な出力

モデル名が一致していない可能性があります。Ollamaは正確な名前を要求します。
一部のモデルには特定のプロンプト形式が必要です。チャットにはInstructモデルの方がbaseモデルより適しています。

Cursorがローカル設定を無視する

OpenAIのベースURLを上書きしているか確認してください。カスタムモデルを追加しただけではありません。
ベースURLを変更した後、Cursorを再起動してください。

まとめ

CursorでのローカルLLMは、一部のタスクにおいて現時点で実用的です。クラウドモデルほどの能力はありませんが、プライバシーを重視する開発者や制限された環境で働く人にとって、しばしば十分な性能を発揮します。セットアップの速さを重視するならOllama、GUIを好むならLM Studioがおすすめです。自分のプロジェクトに合うモデル選択とワークフローが見つかるまで、いくつか試行錯誤が必要です。

なぜローカルモデルを使うのか？​

サポートされているローカルモデルバックエンド​

Ollama + Cursor：ステップバイステップ​

1. Ollamaをインストールする​

2. モデルをプルする​

3. OpenAI互換サーバーを起動する​

4. Cursorを設定する​

5. テストする​

LM Studio + Cursor：ステップバイステップ​

1. LM Studioをインストールする​

2. モデルをダウンロードする​

3. ローカルサーバーを起動する​

4. Cursorを設定する​

5. 検証する​

できることとできないこと​

ハイブリッド戦略：実用的なアプローチ​

トラブルシューティング​

まとめ​

なぜローカルモデルを使うのか？

サポートされているローカルモデルバックエンド

Ollama + Cursor：ステップバイステップ

1. Ollamaをインストールする

2. モデルをプルする

3. OpenAI互換サーバーを起動する

4. Cursorを設定する

5. テストする

LM Studio + Cursor：ステップバイステップ

1. LM Studioをインストールする

2. モデルをダウンロードする

3. ローカルサーバーを起動する

4. Cursorを設定する

5. 検証する

できることとできないこと

ハイブリッド戦略：実用的なアプローチ

トラブルシューティング

まとめ