メインコンテンツまでスキップ

CursorでローカルLLMを動かす:完全セットアップガイド

独自のコードを書いていたり、機密データを扱っていたり、あるいは単にコードスニペットを自分のマシンから出したくないだけの場合、CursorでローカルLLMを動かすのは有力な選択肢です。このガイドでは、OllamaとLM Studioの実用的なセットアップ手順と、切り替える前に知っておくべきトレードオフについて解説します。

なぜローカルモデルを使うのか?

コミュニティで何度も挙がる3つの理由があります:

  • プライバシー:コードはローカルネットワークを離れることがありません。サードパーティAPIもなく、データ保持ポリシーを読み解く必要もありません。
  • コスト:ハードウェア費用を除けば、推論は無料です。トークン課金もなく、使用量の急増も心配ありません。
  • オフラインアクセス:飛行機の中、閉鎖された企業ネットワーク、インターネットがない場所でも動作します。
ヒント

ローカルモデルは、ボイラープレート生成、簡単なリファクタリング、自分のコードベースに関する素早い質問などで真価を発揮します。すべてにGPT-4が必要というわけではありません。

サポートされているローカルモデルバックエンド

Cursorは、OpenAIやAnthropic APIをサポートするのと同じように、ローカルモデルをネイティブにサポートしているわけではありません。代わりに、OpenAI互換APIを提供するローカルサーバーをCursorに指定します。最も一般的な3つの選択肢は以下の通りです:

バックエンド向いている人セットアップの複雑さ
Ollamaすぐに始めたい、モデル管理を簡単にしたい人
LM StudioGUIが好き、Windows/Macユーザー
llama.cpp最大限のコントロール、最小限のオーバーヘッドを求める人

このガイドでは、開発者が実際に日々使っているOllamaとLM Studioに焦点を当てます。

Ollama + Cursor:ステップバイステップ

1. Ollamaをインストールする

ollama.comからダウンロードしてインストールします。macOS、Linux、Windowsでバックグラウンドサービスとして動作します。

動作確認:

ollama --version

2. モデルをプルする

コードに強いモデルから始めましょう。コミュニティのおすすめは以下の通りです:

  • codellama:7b-code または codellama:13b-code — 速く、簡単なタスクに十分
  • deepseek-coder:6.7b — コード補完に強い
  • qwen2.5-coder:7b または 14b — 速度と品質のバランスが良い
ollama pull deepseek-coder:6.7b

3. OpenAI互換サーバーを起動する

Ollamaは localhost:11434 でOpenAI互換APIを公開します。起動し続けてください:

ollama serve

またはバックグラウンドサービスに任せます。

4. Cursorを設定する

Cursorの設定を開き(Ctrl/Cmd + ,)、以下に移動します:

Settings > Models > OpenAI API Key

ベースURLを以下のように設定します:

http://localhost:11434/v1

APIキー欄は空白のままにするか、ダミーの文字列を入力してください(一部のバージョンでは空でない値が必要です)。

プルしたモデル名と一致する名前を選択します。例えば:

deepseek-coder:6.7b
備考

CursorはOpenAIのチャット補完形式でリクエストを送信します。Ollamaの /v1 エンドポイントはこれを自動的に変換します。プロキシは不要です。

5. テストする

ファイルを開き、Ctrl/Cmd + L を押してチャットパネルを開きます。簡単な質問をしてみましょう:

スライシングを使わずに文字列を反転するPython関数を書いてください。

返答があれば接続されています。応答がない場合は、ollama serve が動作しているか、モデル名が正確に一致しているか確認してください。

LM Studio + Cursor:ステップバイステップ

モデルのダウンロードや切り替えにGUIが欲しい場合は、LM Studioがより適しています。

1. LM Studioをインストールする

lmstudio.aiからダウンロードします。macOS、Windows、Linuxに対応しています。

2. モデルをダウンロードする

LM Studioを開き、左のDiscoverタブに移動してコードモデルを検索します。良い選択肢は以下の通りです:

  • TheBloke/CodeLlama-7B-Instruct-GGUF
  • TheBloke/DeepSeek-Coder-6.7B-Instruct-GGUF
  • Qwen/Qwen2.5-Coder-7B-Instruct-GGUF

サイズと品質のバランスを取るため、Q4_K_MまたはQ5_K_Mの量子化版をダウンロードしてください。

3. ローカルサーバーを起動する

LM Studioで、左の Local Server タブに移動します。モデルを読み込み、Start Server をクリックします。

デフォルトでは以下で動作します:

http://localhost:1234/v1

4. Cursorを設定する

Ollamaと同じ手順です。Cursor Settings > Models > OpenAI API Key で以下を設定します:

http://localhost:1234/v1

モデル名欄は local-model またはLM Studioが期待するプレースホルダーのままで構いません。LM Studioはモデル名を無視し、現在読み込まれているモデルを使用します。

5. 検証する

同じテストプロンプトを実行します。LM Studioのサーバーログには受信したリクエストが表示されるため、デバッグに便利です。

できることとできないこと

ローカルモデルはClaude 3.5 SonnetやGPT-4oの完全な代替にはなりません。正直な評価は以下の通りです:

タスクローカル 7B-13Bクラウド (Claude/GPT-4)
簡単なリファクタリング良好優秀
ボイラープレート生成良好優秀
複雑なアーキテクチャ判断弱い優秀
大規模コードベースの理解弱い優秀
複数ファイルの編集弱い良好
速度(GPUあり)速いネットワーク依存
速度(CPUのみ)遅いネットワーク依存
警告

CPUで13Bモデルを動かすと、1回の応答に10〜30秒かかることがあります。現代のGPU(RTX 3060以上)なら1〜3秒に短縮できます。期待値は適切に設定してください。

ハイブリッド戦略:実用的なアプローチ

ローカルモデルを使い続けるほとんどの開発者は、完全移行ではなくハイブリッドなワークフローを採用しています:

  1. ローカルモデルで素早く安全なタスクを:lint修正、リネーム、簡単な正規表現、関数の説明。
  2. クラウドモデルで重い作業を:新機能の設計、難しい問題のデバッグ、複数ファイルにまたがるリファクタリング。
  3. プロジェクトに応じて切り替え:オープンソースや機密性の低いコード → クラウド;独自コードや規制対象のコード → ローカル。

Cursorは設定を変更するだけでモデルを切り替えられるため、IDEを再起動する必要はありません。一部のユーザーは2つのCursorウィンドウを開いておく — 1つはローカル向け、1つはクラウド向け — といった使い方もしていますが、これは機能というよりworkaroundです。

ヒント

Apple SiliconのMacをお持ちの場合、OllamaはNeural Engineを効果的に活用します。MacBook Pro M3 Proなら、13Bモデルを実用的な速度で動かせ、ディスクリートGPUのようにバッテリーを激しく消費することもありません。

トラブルシューティング

"Connection refused" エラー

  • サーバーが動作しているか確認してください(ollama serve またはLM Studioのサーバータブ)。
  • ポートを確認:Ollamaは11434、LM Studioは1234です。
  • ファイアウォールや企業プロキシを確認してください。

応答が遅い

  • より小さいモデルや、より低い量子化(Q5の代わりにQ4)を使用してください。
  • GPUが使用されているか確認してください。Ollamaのログには読み込み時に GPU または CPU と表示されます。
  • 他のGPU負荷の高いアプリを閉じてください。

意味不明な出力

  • モデル名が一致していない可能性があります。Ollamaは正確な名前を要求します。
  • 一部のモデルには特定のプロンプト形式が必要です。チャットにはInstructモデルの方がbaseモデルより適しています。

Cursorがローカル設定を無視する

  • OpenAIのベースURLを上書きしているか確認してください。カスタムモデルを追加しただけではありません。
  • ベースURLを変更した後、Cursorを再起動してください。

まとめ

CursorでのローカルLLMは、一部のタスクにおいて現時点で実用的です。クラウドモデルほどの能力はありませんが、プライバシーを重視する開発者や制限された環境で働く人にとって、しばしば十分な性能を発揮します。セットアップの速さを重視するならOllama、GUIを好むならLM Studioがおすすめです。自分のプロジェクトに合うモデル選択とワークフローが見つかるまで、いくつか試行錯誤が必要です。