在 Cursor 中运行本地 LLM:完整配置指南
如果你在写闭源代码、处理敏感数据,或者单纯不想让代码片段离开自己的电脑,那么在 Cursor 里跑本地 LLM 是个不错的选择。这篇指南会带你一步步配置 Ollama 和 LM Studio,同时聊聊切换前需要了解的取舍。
为什么要折腾本地模型?
社区里反复提到的三个理由:
- 隐私:代码永远不会离开你的本地网络。没有第三方 API,也不用去啃各种数据保留政策。
- 成本:硬件买完之后,推理就是免费的。没有按 token 计费,不用担心用量暴涨。
- 离线可用:飞机上、封闭的企业内网、或者任何没网的地方都能用。
本地模型在写样板代码、简单重构、快速问答这些场景下表现不错。不是所有任务都需要 GPT-4 的。
支持的本地模型后端
Cursor 并没有像支持 OpenAI 或 Anthropic API 那样内置本地模型支持。你需要让 Cursor 指向一个提供 OpenAI 兼容 API 的本地服务器。最常见的三个选项:
| 后端 | 适合谁 | 配置复杂度 |
|---|---|---|
| Ollama | 想快速上手、方便管理模型 | 低 |
| LM Studio | 喜欢 GUI、Windows/Mac 用户 | 低 |
| llama.cpp | 追求极致控制、最小开销 | 中等 |
这篇指南主要讲 Ollama 和 LM Studio,因为它们是开发者日常真正在用的。
Ollama + Cursor:一步步来
1. 安装 Ollama
去 ollama.com 下载安装。它会在 macOS、Linux 和 Windows 上作为后台服务运行。
验证一下是否装好:
ollama --version
2. 拉取模型
先从代码能力强的模型开始。社区比较推荐这些:
codellama:7b-code或codellama:13b-code—— 速度快,简单任务够用deepseek-coder:6.7b—— 代码补全效果不错qwen2.5-coder:7b或14b—— 速度和质量比较均衡
ollama pull deepseek-coder:6.7b
3. 启动 OpenAI 兼容服务器
Ollama 在 localhost:11434 暴露了 OpenAI 兼容 API。保持运行:
ollama serve
或者让后台服务自己处理。
4. 配置 Cursor
打开 Cursor 设置(Ctrl/Cmd + ,),导航到:
Settings > Models > OpenAI API Key
把 Base URL 设为:
http://localhost:11434/v1
API Key 留空,或者随便填个字符串(有些版本要求非空)。
模型名称填你刚才拉取的,比如:
deepseek-coder:6.7b
Cursor 用 OpenAI chat completions 格式发请求。Ollama 的 /v1 端点会自动转换,不需要额外代理。
5. 测试一下
打开一个文件,按 Ctrl/Cmd + L 打开聊天面板,问个简单的问题:
写一个不用切片来反转字符串的 Python 函数。
如果有回复,说明连上了。如果卡住,检查一下 ollama serve 是否在跑,以及模型名称是否完全匹配。
LM Studio + Cursor:一步步来
如果你想要一个带 GUI 的模型下载和切换工具,LM Studio 是更好的选择。
1. 安装 LM Studio
去 lmstudio.ai 下载。支持 macOS、Windows 和 Linux。
2. 下载模型
打开 LM Studio,进入 Discover 标签页,搜索代码模型。推荐这几个:
TheBloke/CodeLlama-7B-Instruct-GGUFTheBloke/DeepSeek-Coder-6.7B-Instruct-GGUFQwen/Qwen2.5-Coder-7B-Instruct-GGUF
下载 Q4_K_M 或 Q5_K_M 量化版本,在体积和质量之间取个平衡。
3. 启动本地服务器
在 LM Studio 里,点击左侧的 Local Server 标签页。加载模型,然后点 Start Server。
默认跑在:
http://localhost:1234/v1
4. 配置 Cursor
和 Ollama 一样。在 Cursor Settings > Models > OpenAI API Key 里设置:
http://localhost:1234/v1
模型名称可以留 local-model 或者随便填。LM Studio 会忽略模型名称,直接用当前加载的模型。
5. 验证
跑同样的测试提示词。LM Studio 的服务器日志会显示收到的请求,调试起来很方便。
什么能做什么不能做
本地模型不是 Claude 3.5 Sonnet 或 GPT-4o 的平替。实话实说:
| 任务 | 本地 7B-13B | 云端 (Claude/GPT-4) |
|---|---|---|
| 简单重构 | 不错 | 优秀 |
| 样板代码生成 | 不错 | 优秀 |
| 复杂架构决策 | 较弱 | 优秀 |
| 理解大型代码库 | 较弱 | 优秀 |
| 多文件编辑 | 较弱 | 不错 |
| 速度(有 GPU) | 快 | 取决于网络 |
| 速度(仅 CPU) | 慢 | 取决于网络 |
在 CPU 上跑 13B 模型,每次回复可能要等 10-30 秒。现代 GPU(RTX 3060 或更好)能把时间压到 1-3 秒。心里要有数。
混合策略:更务实的做法
大多数坚持本地模型的开发者不会完全放弃云端,而是采用混合 workflow:
- 本地模型做简单、安全的任务:修 lint、重命名、简单正则、解释函数。
- 云端模型做重活:设计新功能、调试棘手问题、跨文件重构。
- 按项目切换:开源或不敏感的代码用云端;闭源代码或受监管的代码用本地。
Cursor 切换模型很方便,改设置就行,不用重启 IDE。有人甚至开两个 Cursor 窗口——一个连本地,一个连云端——虽然这更像是 workaround 而不是功能。
如果你用的是 Apple Silicon Mac,Ollama 对 Neural Engine 的优化很好。MacBook Pro M3 Pro 能以可用的速度跑 13B 模型,而且不会像独显那样疯狂耗电。
常见问题排查
"Connection refused" 错误
- 检查服务器是否在跑(
ollama serve或 LM Studio 的 server 标签页)。 - 确认端口:Ollama 用 11434,LM Studio 用 1234。
- 检查防火墙或公司代理。
回复太慢
- 换个小模型,或者降低量化精度(Q5 改 Q4)。
- 确认 GPU 是否在干活。Ollama 日志加载时会显示
GPU或CPU。 - 关掉其他吃 GPU 的应用。
输出胡言乱语
- 模型名称可能没对上。Ollama 对名称很挑剔,必须完全匹配。
- 有些模型需要特定的 prompt 格式。Instruct 模型比 base 模型更适合聊天。
Cursor 无视本地设置
- 确保你覆盖的是 OpenAI base URL,而不是只加了自定义模型。
- 改了 base URL 后重启 Cursor。
写在最后
本地 LLM 配合 Cursor,在今天已经能应付一部分任务了。它们不如云端模型强大,但对注重隐私的开发者,或者在受限环境里工作的人来说,往往已经够用了。想快速上手选 Ollama,喜欢 GUI 选 LM Studio。模型选择和 workflow 需要多试几次,才能找到适合自己项目的组合。