Zum Hauptinhalt springen

Lokale LLMs mit Cursor betreiben: Eine vollständige Einrichtungsanleitung

Wenn du an proprietärem Code arbeitest, sensible Daten verarbeitest oder einfach nicht möchtest, dass deine Code-Snippets deinen Rechner verlassen, ist der Betrieb eines lokalen LLM mit Cursor eine solide Option. Diese Anleitung führt dich durch die praktische Einrichtung von Ollama und LM Studio sowie die Abwägungen, die du vor dem Umstieg kennen solltest.

Warum überhaupt lokale Modelle?

Drei Gründe werden in der Community immer wieder genannt:

  • Datenschutz: Dein Code verlässt niemals dein lokales Netzwerk. Keine Drittanbieter-API, keine Datenschutzrichtlinie, die du studieren musst.
  • Kosten: Nach den Hardwarekosten ist die Inferenz kostenlos. Keine Abrechnung pro Token, keine Nutzungsspitzen.
  • Offline-Zugang: Funktioniert im Flugzeug, in abgeschotteten Unternehmensnetzwerken oder überall dort, wo es kein Internet gibt.
tipp

Lokale Modelle glänzen bei der Generierung von Boilerplate-Code, einfachen Refactorings und schnellen Fragen zu deiner eigenen Codebase. Du brauchst nicht für alles GPT-4.

Unterstützte lokale Model-Backends

Cursor liefert keine eingebaute Unterstützung für lokale Modelle auf die gleiche Weise wie für OpenAI- oder Anthropic-APIs. Stattdessen zeigst du Cursor auf einen lokalen Server, der eine OpenAI-kompatible API bereitstellt. Die drei gängigsten Optionen:

BackendIdeal fürEinrichtungskomplexität
OllamaSchneller Start, ModellverwaltungNiedrig
LM StudioGUI-Liebhaber, Windows/Mac-NutzerNiedrig
llama.cppMaximale Kontrolle, minimaler OverheadMittel

Diese Anleitung konzentriert sich auf Ollama und LM Studio, weil das die Tools sind, die die meisten Entwickler im Alltag tatsächlich nutzen.

Ollama + Cursor: Schritt für Schritt

1. Ollama installieren

Lade von ollama.com herunter und installiere. Es läuft als Hintergrunddienst unter macOS, Linux und Windows.

Überprüfe, ob es funktioniert:

ollama --version

2. Ein Modell herunterladen

Beginne mit einem code-fähigen Modell. Die Community-Favoriten sind:

  • codellama:7b-code oder codellama:13b-code — schnell, ordentlich für einfache Aufgaben
  • deepseek-coder:6.7b — stark bei der Code-Vervollständigung
  • qwen2.5-coder:7b oder 14b — gute Balance aus Geschwindigkeit und Qualität
ollama pull deepseek-coder:6.7b

3. Den OpenAI-kompatiblen Server starten

Ollama stellt eine OpenAI-kompatible API unter localhost:11434 bereit. Halte ihn am Laufen:

ollama serve

Oder lass den Hintergrunddienst die Arbeit erledigen.

4. Cursor konfigurieren

Öffne die Cursor-Einstellungen (Ctrl/Cmd + ,) und navigiere zu:

Einstellungen > Modelle > OpenAI API-Schlüssel

Setze die Basis-URL auf:

http://localhost:11434/v1

Lass das API-Schlüssel-Feld leer oder gib einen beliebigen Dummy-String ein (einige Versionen erfordern einen nicht-leeren Wert).

Wähle den Modellnamen, der zu dem passt, was du heruntergeladen hast. Zum Beispiel:

deepseek-coder:6.7b
info

Cursor sendet Anfragen im OpenAI Chat-Completions-Format. Ollamas /v1-Endpunkt übersetzt diese automatisch. Du brauchst keinen Proxy.

5. Testen

Öffne eine Datei und drücke Ctrl/Cmd + L, um das Chat-Panel zu öffnen. Stelle eine einfache Frage:

Schreibe eine Python-Funktion, die einen String ohne Slicing umkehrt.

Wenn du eine Antwort bekommst, bist du verbunden. Wenn es hängt, prüfe, ob ollama serve läuft und der Modellname exakt übereinstimmt.

LM Studio + Cursor: Schritt für Schritt

LM Studio ist die bessere Wahl, wenn du eine GUI zum Herunterladen und Wechseln von Modellen möchtest.

1. LM Studio installieren

Lade von lmstudio.ai herunter. Verfügbar für macOS, Windows und Linux.

2. Ein Modell herunterladen

Öffne LM Studio, gehe zum Discover-Tab und suche nach einem Code-Modell. Gute Kandidaten:

  • TheBloke/CodeLlama-7B-Instruct-GGUF
  • TheBloke/DeepSeek-Coder-6.7B-Instruct-GGUF
  • Qwen/Qwen2.5-Coder-7B-Instruct-GGUF

Lade die Q4_K_M- oder Q5_K_M-Quantisierung für ein Gleichgewicht aus Größe und Qualität herunter.

3. Den lokalen Server starten

Gehe in LM Studio zum Local Server-Tab links. Lade dein Modell, dann klicke auf Start Server.

Standardmäßig läuft er unter:

http://localhost:1234/v1

4. Cursor konfigurieren

Gleicher Prozess wie bei Ollama. In Cursor Einstellungen > Modelle > OpenAI API-Schlüssel, setze:

http://localhost:1234/v1

Das Modellname-Feld kann auf local-model oder einen anderen Platzhalter belassen werden, den LM Studio erwartet. LM Studio ignoriert den Modellnamen und verwendet das aktuell geladene Modell.

5. Verifizieren

Führe denselben Test-Prompt aus. LM Studios Server-Logs zeigen eingehende Anfragen, was für das Debugging nützlich ist.

Was funktioniert und was nicht

Lokale Modelle sind kein Drop-in-Ersatz für Claude 3.5 Sonnet oder GPT-4o. Hier ist die ehrliche Aufschlüsselung:

AufgabeLokal 7B-13BCloud (Claude/GPT-4)
Einfache RefactoringsGutHervorragend
Boilerplate-GenerierungGutHervorragend
Komplexe ArchitekturentscheidungenSchwachHervorragend
Große Codebases verstehenSchwachHervorragend
Multi-File-EditsSchwachGut
Geschwindigkeit (mit GPU)SchnellNetzwerkabhängig
Geschwindigkeit (nur CPU)LangsamNetzwerkabhängig
warnung

Der Betrieb eines 13B-Modells auf der CPU kann 10-30 Sekunden pro Antwort dauern. Eine moderne GPU (RTX 3060 oder besser) reduziert das auf 1-3 Sekunden. Stelle deine Erwartungen entsprechend ein.

Hybrid-Strategie: Der pragmatische Ansatz

Die meisten Entwickler, die bei lokalen Modellen bleiben, nutzen einen hybriden Workflow statt alles umzustellen:

  1. Lokales Modell für schnelle, sichere Aufgaben: Lint-Fixes, Umbenennungen, einfache Regexes, Erklärung einer Funktion.
  2. Cloud-Modell für schwere Aufgaben: Design neuer Features, Debugging kniffliger Probleme, Cross-File-Refactoring.
  3. Je nach Projekt wechseln: Open Source oder nicht-sensibler Code → Cloud; proprietärer oder regulierter Code → Lokal.

Cursor macht das einfach, weil du das Modell in den Einstellungen wechseln kannst, ohne die IDE neu zu starten. Einige Nutzer halten zwei Cursor-Fenster offen — eines auf Lokal, eines auf Cloud — obwohl das eher ein Workaround als ein Feature ist.

tipp

Wenn du einen Mac mit Apple Silicon hast, nutzt Ollama die Neural Engine gut. Ein MacBook Pro M3 Pro kann ein 13B-Modell in nutzbaren Geschwindigkeiten betreiben, ohne den Akku wie eine dedizierte GPU zu leeren.

Fehlerbehebung

"Connection refused"-Fehler

  • Prüfe, ob der Server läuft (ollama serve oder LM Studio Server-Tab).
  • Überprüfe den Port: Ollama nutzt 11434, LM Studio nutzt 1234.
  • Prüfe deine Firewall oder den Unternehmens-Proxy.

Langsame Antworten

  • Nutze ein kleineres Modell oder eine höhere Quantisierung (Q4 statt Q5).
  • Stelle sicher, dass deine GPU genutzt wird. Ollama-Logs zeigen GPU oder CPU beim Laden.
  • Schließe andere GPU-intensive Apps.

Unsinnige Ausgaben

  • Der Modellname könnte nicht übereinstimmen. Ollama ist pingelig bei exakten Namen.
  • Einige Modelle benötigen ein spezifisches Prompt-Format. Instruct-Modelle funktionieren besser als Base-Modelle für Chat.

Cursor ignoriert die lokale Einstellung

  • Stelle sicher, dass du die OpenAI Basis-URL überschreibst, nicht nur ein benutzerdefiniertes Modell hinzufügst.
  • Starte Cursor nach der Änderung der Basis-URL neu.

Fazit

Lokale LLMs mit Cursor sind heute für eine Teilmenge von Aufgaben praktikabel. Sie sind nicht so leistungsfähig wie Cloud-Modelle, aber für datenschutzbewusste Entwickler oder diejenigen, die in eingeschränkten Umgebungen arbeiten, sind sie oft gut genug. Starte mit Ollama, wenn du eine schnelle Einrichtung möchtest, oder mit LM Studio, wenn du eine GUI bevorzugst. Erwarte, dass du Modellwahl und Workflow iterieren musst, bevor du findest, was für deine Projekte funktioniert.