在 Cursor 中运行本地 LLM：完整配置指南

如果你在写闭源代码、处理敏感数据，或者单纯不想让代码片段离开自己的电脑，那么在 Cursor 里跑本地 LLM 是个不错的选择。这篇指南会带你一步步配置 Ollama 和 LM Studio，同时聊聊切换前需要了解的取舍。

为什么要折腾本地模型？

社区里反复提到的三个理由：

隐私：代码永远不会离开你的本地网络。没有第三方 API，也不用去啃各种数据保留政策。
成本：硬件买完之后，推理就是免费的。没有按 token 计费，不用担心用量暴涨。
离线可用：飞机上、封闭的企业内网、或者任何没网的地方都能用。

提示

本地模型在写样板代码、简单重构、快速问答这些场景下表现不错。不是所有任务都需要 GPT-4 的。

支持的本地模型后端

Cursor 并没有像支持 OpenAI 或 Anthropic API 那样内置本地模型支持。你需要让 Cursor 指向一个提供 OpenAI 兼容 API 的本地服务器。最常见的三个选项：

后端	适合谁	配置复杂度
Ollama	想快速上手、方便管理模型	低
LM Studio	喜欢 GUI、Windows/Mac 用户	低
llama.cpp	追求极致控制、最小开销	中等

这篇指南主要讲 Ollama 和 LM Studio，因为它们是开发者日常真正在用的。

Ollama + Cursor：一步步来

1. 安装 Ollama

去 ollama.com 下载安装。它会在 macOS、Linux 和 Windows 上作为后台服务运行。

验证一下是否装好：

ollama --version

2. 拉取模型

先从代码能力强的模型开始。社区比较推荐这些：

codellama:7b-code 或 codellama:13b-code —— 速度快，简单任务够用
deepseek-coder:6.7b —— 代码补全效果不错
qwen2.5-coder:7b 或 14b —— 速度和质量比较均衡

ollama pull deepseek-coder:6.7b

3. 启动 OpenAI 兼容服务器

Ollama 在 localhost:11434 暴露了 OpenAI 兼容 API。保持运行：

ollama serve

或者让后台服务自己处理。

4. 配置 Cursor

打开 Cursor 设置（Ctrl/Cmd + ,），导航到：

Settings > Models > OpenAI API Key

把 Base URL 设为：

http://localhost:11434/v1

API Key 留空，或者随便填个字符串（有些版本要求非空）。

模型名称填你刚才拉取的，比如：

deepseek-coder:6.7b

信息

Cursor 用 OpenAI chat completions 格式发请求。Ollama 的 /v1 端点会自动转换，不需要额外代理。

5. 测试一下

打开一个文件，按 Ctrl/Cmd + L 打开聊天面板，问个简单的问题：

写一个不用切片来反转字符串的 Python 函数。

如果有回复，说明连上了。如果卡住，检查一下 ollama serve 是否在跑，以及模型名称是否完全匹配。

LM Studio + Cursor：一步步来

如果你想要一个带 GUI 的模型下载和切换工具，LM Studio 是更好的选择。

1. 安装 LM Studio

去 lmstudio.ai 下载。支持 macOS、Windows 和 Linux。

2. 下载模型

打开 LM Studio，进入 Discover 标签页，搜索代码模型。推荐这几个：

TheBloke/CodeLlama-7B-Instruct-GGUF
TheBloke/DeepSeek-Coder-6.7B-Instruct-GGUF
Qwen/Qwen2.5-Coder-7B-Instruct-GGUF

下载 Q4_K_M 或 Q5_K_M 量化版本，在体积和质量之间取个平衡。

3. 启动本地服务器

在 LM Studio 里，点击左侧的 Local Server 标签页。加载模型，然后点 Start Server。

默认跑在：

http://localhost:1234/v1

4. 配置 Cursor

和 Ollama 一样。在 Cursor Settings > Models > OpenAI API Key 里设置：

http://localhost:1234/v1

模型名称可以留 local-model 或者随便填。LM Studio 会忽略模型名称，直接用当前加载的模型。

5. 验证

跑同样的测试提示词。LM Studio 的服务器日志会显示收到的请求，调试起来很方便。

什么能做什么不能做

本地模型不是 Claude 3.5 Sonnet 或 GPT-4o 的平替。实话实说：

任务	本地 7B-13B	云端 (Claude/GPT-4)
简单重构	不错	优秀
样板代码生成	不错	优秀
复杂架构决策	较弱	优秀
理解大型代码库	较弱	优秀
多文件编辑	较弱	不错
速度（有 GPU）	快	取决于网络
速度（仅 CPU）	慢	取决于网络

注意

在 CPU 上跑 13B 模型，每次回复可能要等 10-30 秒。现代 GPU（RTX 3060 或更好）能把时间压到 1-3 秒。心里要有数。

混合策略：更务实的做法

大多数坚持本地模型的开发者不会完全放弃云端，而是采用混合 workflow：

本地模型做简单、安全的任务：修 lint、重命名、简单正则、解释函数。
云端模型做重活：设计新功能、调试棘手问题、跨文件重构。
按项目切换：开源或不敏感的代码用云端；闭源代码或受监管的代码用本地。

Cursor 切换模型很方便，改设置就行，不用重启 IDE。有人甚至开两个 Cursor 窗口——一个连本地，一个连云端——虽然这更像是 workaround 而不是功能。

提示

如果你用的是 Apple Silicon Mac，Ollama 对 Neural Engine 的优化很好。MacBook Pro M3 Pro 能以可用的速度跑 13B 模型，而且不会像独显那样疯狂耗电。

常见问题排查

"Connection refused" 错误

检查服务器是否在跑（ollama serve 或 LM Studio 的 server 标签页）。
确认端口：Ollama 用 11434，LM Studio 用 1234。
检查防火墙或公司代理。

回复太慢

换个小模型，或者降低量化精度（Q5 改 Q4）。
确认 GPU 是否在干活。Ollama 日志加载时会显示 GPU 或 CPU。
关掉其他吃 GPU 的应用。

输出胡言乱语

模型名称可能没对上。Ollama 对名称很挑剔，必须完全匹配。
有些模型需要特定的 prompt 格式。Instruct 模型比 base 模型更适合聊天。

Cursor 无视本地设置

确保你覆盖的是 OpenAI base URL，而不是只加了自定义模型。
改了 base URL 后重启 Cursor。

写在最后

本地 LLM 配合 Cursor，在今天已经能应付一部分任务了。它们不如云端模型强大，但对注重隐私的开发者，或者在受限环境里工作的人来说，往往已经够用了。想快速上手选 Ollama，喜欢 GUI 选 LM Studio。模型选择和 workflow 需要多试几次，才能找到适合自己项目的组合。

为什么要折腾本地模型？​

支持的本地模型后端​

Ollama + Cursor：一步步来​

1. 安装 Ollama​

2. 拉取模型​

3. 启动 OpenAI 兼容服务器​

4. 配置 Cursor​

5. 测试一下​

LM Studio + Cursor：一步步来​

1. 安装 LM Studio​

2. 下载模型​

3. 启动本地服务器​

4. 配置 Cursor​

5. 验证​

什么能做什么不能做​

混合策略：更务实的做法​

常见问题排查​

写在最后​

为什么要折腾本地模型？

支持的本地模型后端

Ollama + Cursor：一步步来

1. 安装 Ollama

2. 拉取模型

3. 启动 OpenAI 兼容服务器

4. 配置 Cursor

5. 测试一下

LM Studio + Cursor：一步步来

1. 安装 LM Studio

2. 下载模型

3. 启动本地服务器

4. 配置 Cursor

5. 验证

什么能做什么不能做

混合策略：更务实的做法

常见问题排查

写在最后