Lokale LLMs mit Cursor betreiben: Eine vollständige Einrichtungsanleitung

Wenn du an proprietärem Code arbeitest, sensible Daten verarbeitest oder einfach nicht möchtest, dass deine Code-Snippets deinen Rechner verlassen, ist der Betrieb eines lokalen LLM mit Cursor eine solide Option. Diese Anleitung führt dich durch die praktische Einrichtung von Ollama und LM Studio sowie die Abwägungen, die du vor dem Umstieg kennen solltest.

Warum überhaupt lokale Modelle?

Drei Gründe werden in der Community immer wieder genannt:

Datenschutz: Dein Code verlässt niemals dein lokales Netzwerk. Keine Drittanbieter-API, keine Datenschutzrichtlinie, die du studieren musst.
Kosten: Nach den Hardwarekosten ist die Inferenz kostenlos. Keine Abrechnung pro Token, keine Nutzungsspitzen.
Offline-Zugang: Funktioniert im Flugzeug, in abgeschotteten Unternehmensnetzwerken oder überall dort, wo es kein Internet gibt.

tipp

Lokale Modelle glänzen bei der Generierung von Boilerplate-Code, einfachen Refactorings und schnellen Fragen zu deiner eigenen Codebase. Du brauchst nicht für alles GPT-4.

Unterstützte lokale Model-Backends

Cursor liefert keine eingebaute Unterstützung für lokale Modelle auf die gleiche Weise wie für OpenAI- oder Anthropic-APIs. Stattdessen zeigst du Cursor auf einen lokalen Server, der eine OpenAI-kompatible API bereitstellt. Die drei gängigsten Optionen:

Backend	Ideal für	Einrichtungskomplexität
Ollama	Schneller Start, Modellverwaltung	Niedrig
LM Studio	GUI-Liebhaber, Windows/Mac-Nutzer	Niedrig
llama.cpp	Maximale Kontrolle, minimaler Overhead	Mittel

Diese Anleitung konzentriert sich auf Ollama und LM Studio, weil das die Tools sind, die die meisten Entwickler im Alltag tatsächlich nutzen.

Ollama + Cursor: Schritt für Schritt

1. Ollama installieren

Lade von ollama.com herunter und installiere. Es läuft als Hintergrunddienst unter macOS, Linux und Windows.

Überprüfe, ob es funktioniert:

ollama --version

2. Ein Modell herunterladen

Beginne mit einem code-fähigen Modell. Die Community-Favoriten sind:

codellama:7b-code oder codellama:13b-code — schnell, ordentlich für einfache Aufgaben
deepseek-coder:6.7b — stark bei der Code-Vervollständigung
qwen2.5-coder:7b oder 14b — gute Balance aus Geschwindigkeit und Qualität

ollama pull deepseek-coder:6.7b

3. Den OpenAI-kompatiblen Server starten

Ollama stellt eine OpenAI-kompatible API unter localhost:11434 bereit. Halte ihn am Laufen:

ollama serve

Oder lass den Hintergrunddienst die Arbeit erledigen.

4. Cursor konfigurieren

Öffne die Cursor-Einstellungen (Ctrl/Cmd + ,) und navigiere zu:

Einstellungen > Modelle > OpenAI API-Schlüssel

Setze die Basis-URL auf:

http://localhost:11434/v1

Lass das API-Schlüssel-Feld leer oder gib einen beliebigen Dummy-String ein (einige Versionen erfordern einen nicht-leeren Wert).

Wähle den Modellnamen, der zu dem passt, was du heruntergeladen hast. Zum Beispiel:

deepseek-coder:6.7b

info

Cursor sendet Anfragen im OpenAI Chat-Completions-Format. Ollamas /v1-Endpunkt übersetzt diese automatisch. Du brauchst keinen Proxy.

5. Testen

Öffne eine Datei und drücke Ctrl/Cmd + L, um das Chat-Panel zu öffnen. Stelle eine einfache Frage:

Schreibe eine Python-Funktion, die einen String ohne Slicing umkehrt.

Wenn du eine Antwort bekommst, bist du verbunden. Wenn es hängt, prüfe, ob ollama serve läuft und der Modellname exakt übereinstimmt.

LM Studio + Cursor: Schritt für Schritt

LM Studio ist die bessere Wahl, wenn du eine GUI zum Herunterladen und Wechseln von Modellen möchtest.

1. LM Studio installieren

Lade von lmstudio.ai herunter. Verfügbar für macOS, Windows und Linux.

2. Ein Modell herunterladen

Öffne LM Studio, gehe zum Discover-Tab und suche nach einem Code-Modell. Gute Kandidaten:

TheBloke/CodeLlama-7B-Instruct-GGUF
TheBloke/DeepSeek-Coder-6.7B-Instruct-GGUF
Qwen/Qwen2.5-Coder-7B-Instruct-GGUF

Lade die Q4_K_M- oder Q5_K_M-Quantisierung für ein Gleichgewicht aus Größe und Qualität herunter.

3. Den lokalen Server starten

Gehe in LM Studio zum Local Server-Tab links. Lade dein Modell, dann klicke auf Start Server.

Standardmäßig läuft er unter:

http://localhost:1234/v1

4. Cursor konfigurieren

Gleicher Prozess wie bei Ollama. In Cursor Einstellungen > Modelle > OpenAI API-Schlüssel, setze:

http://localhost:1234/v1

Das Modellname-Feld kann auf local-model oder einen anderen Platzhalter belassen werden, den LM Studio erwartet. LM Studio ignoriert den Modellnamen und verwendet das aktuell geladene Modell.

5. Verifizieren

Führe denselben Test-Prompt aus. LM Studios Server-Logs zeigen eingehende Anfragen, was für das Debugging nützlich ist.

Was funktioniert und was nicht

Lokale Modelle sind kein Drop-in-Ersatz für Claude 3.5 Sonnet oder GPT-4o. Hier ist die ehrliche Aufschlüsselung:

Aufgabe	Lokal 7B-13B	Cloud (Claude/GPT-4)
Einfache Refactorings	Gut	Hervorragend
Boilerplate-Generierung	Gut	Hervorragend
Komplexe Architekturentscheidungen	Schwach	Hervorragend
Große Codebases verstehen	Schwach	Hervorragend
Multi-File-Edits	Schwach	Gut
Geschwindigkeit (mit GPU)	Schnell	Netzwerkabhängig
Geschwindigkeit (nur CPU)	Langsam	Netzwerkabhängig

warnung

Der Betrieb eines 13B-Modells auf der CPU kann 10-30 Sekunden pro Antwort dauern. Eine moderne GPU (RTX 3060 oder besser) reduziert das auf 1-3 Sekunden. Stelle deine Erwartungen entsprechend ein.

Hybrid-Strategie: Der pragmatische Ansatz

Die meisten Entwickler, die bei lokalen Modellen bleiben, nutzen einen hybriden Workflow statt alles umzustellen:

Lokales Modell für schnelle, sichere Aufgaben: Lint-Fixes, Umbenennungen, einfache Regexes, Erklärung einer Funktion.
Cloud-Modell für schwere Aufgaben: Design neuer Features, Debugging kniffliger Probleme, Cross-File-Refactoring.
Je nach Projekt wechseln: Open Source oder nicht-sensibler Code → Cloud; proprietärer oder regulierter Code → Lokal.

Cursor macht das einfach, weil du das Modell in den Einstellungen wechseln kannst, ohne die IDE neu zu starten. Einige Nutzer halten zwei Cursor-Fenster offen — eines auf Lokal, eines auf Cloud — obwohl das eher ein Workaround als ein Feature ist.

tipp

Wenn du einen Mac mit Apple Silicon hast, nutzt Ollama die Neural Engine gut. Ein MacBook Pro M3 Pro kann ein 13B-Modell in nutzbaren Geschwindigkeiten betreiben, ohne den Akku wie eine dedizierte GPU zu leeren.

Fehlerbehebung

"Connection refused"-Fehler

Prüfe, ob der Server läuft (ollama serve oder LM Studio Server-Tab).
Überprüfe den Port: Ollama nutzt 11434, LM Studio nutzt 1234.
Prüfe deine Firewall oder den Unternehmens-Proxy.

Langsame Antworten

Nutze ein kleineres Modell oder eine höhere Quantisierung (Q4 statt Q5).
Stelle sicher, dass deine GPU genutzt wird. Ollama-Logs zeigen GPU oder CPU beim Laden.
Schließe andere GPU-intensive Apps.

Unsinnige Ausgaben

Der Modellname könnte nicht übereinstimmen. Ollama ist pingelig bei exakten Namen.
Einige Modelle benötigen ein spezifisches Prompt-Format. Instruct-Modelle funktionieren besser als Base-Modelle für Chat.

Cursor ignoriert die lokale Einstellung

Stelle sicher, dass du die OpenAI Basis-URL überschreibst, nicht nur ein benutzerdefiniertes Modell hinzufügst.
Starte Cursor nach der Änderung der Basis-URL neu.

Fazit

Lokale LLMs mit Cursor sind heute für eine Teilmenge von Aufgaben praktikabel. Sie sind nicht so leistungsfähig wie Cloud-Modelle, aber für datenschutzbewusste Entwickler oder diejenigen, die in eingeschränkten Umgebungen arbeiten, sind sie oft gut genug. Starte mit Ollama, wenn du eine schnelle Einrichtung möchtest, oder mit LM Studio, wenn du eine GUI bevorzugst. Erwarte, dass du Modellwahl und Workflow iterieren musst, bevor du findest, was für deine Projekte funktioniert.

Warum überhaupt lokale Modelle?​

Unterstützte lokale Model-Backends​

Ollama + Cursor: Schritt für Schritt​

1. Ollama installieren​

2. Ein Modell herunterladen​

3. Den OpenAI-kompatiblen Server starten​

4. Cursor konfigurieren​

5. Testen​

LM Studio + Cursor: Schritt für Schritt​

1. LM Studio installieren​

2. Ein Modell herunterladen​

3. Den lokalen Server starten​

4. Cursor konfigurieren​

5. Verifizieren​

Was funktioniert und was nicht​

Hybrid-Strategie: Der pragmatische Ansatz​

Fehlerbehebung​

Fazit​

Warum überhaupt lokale Modelle?

Unterstützte lokale Model-Backends

Ollama + Cursor: Schritt für Schritt

1. Ollama installieren

2. Ein Modell herunterladen

3. Den OpenAI-kompatiblen Server starten

4. Cursor konfigurieren

5. Testen

LM Studio + Cursor: Schritt für Schritt

1. LM Studio installieren

2. Ein Modell herunterladen

3. Den lokalen Server starten

4. Cursor konfigurieren

5. Verifizieren

Was funktioniert und was nicht

Hybrid-Strategie: Der pragmatische Ansatz

Fehlerbehebung

Fazit