跳到主要内容

在 Cursor 中运行本地 LLM:完整配置指南

如果你在写闭源代码、处理敏感数据,或者单纯不想让代码片段离开自己的电脑,那么在 Cursor 里跑本地 LLM 是个不错的选择。这篇指南会带你一步步配置 Ollama 和 LM Studio,同时聊聊切换前需要了解的取舍。

为什么要折腾本地模型?

社区里反复提到的三个理由:

  • 隐私:代码永远不会离开你的本地网络。没有第三方 API,也不用去啃各种数据保留政策。
  • 成本:硬件买完之后,推理就是免费的。没有按 token 计费,不用担心用量暴涨。
  • 离线可用:飞机上、封闭的企业内网、或者任何没网的地方都能用。
提示

本地模型在写样板代码、简单重构、快速问答这些场景下表现不错。不是所有任务都需要 GPT-4 的。

支持的本地模型后端

Cursor 并没有像支持 OpenAI 或 Anthropic API 那样内置本地模型支持。你需要让 Cursor 指向一个提供 OpenAI 兼容 API 的本地服务器。最常见的三个选项:

后端适合谁配置复杂度
Ollama想快速上手、方便管理模型
LM Studio喜欢 GUI、Windows/Mac 用户
llama.cpp追求极致控制、最小开销中等

这篇指南主要讲 Ollama 和 LM Studio,因为它们是开发者日常真正在用的。

Ollama + Cursor:一步步来

1. 安装 Ollama

ollama.com 下载安装。它会在 macOS、Linux 和 Windows 上作为后台服务运行。

验证一下是否装好:

ollama --version

2. 拉取模型

先从代码能力强的模型开始。社区比较推荐这些:

  • codellama:7b-codecodellama:13b-code —— 速度快,简单任务够用
  • deepseek-coder:6.7b —— 代码补全效果不错
  • qwen2.5-coder:7b14b —— 速度和质量比较均衡
ollama pull deepseek-coder:6.7b

3. 启动 OpenAI 兼容服务器

Ollama 在 localhost:11434 暴露了 OpenAI 兼容 API。保持运行:

ollama serve

或者让后台服务自己处理。

4. 配置 Cursor

打开 Cursor 设置(Ctrl/Cmd + ,),导航到:

Settings > Models > OpenAI API Key

把 Base URL 设为:

http://localhost:11434/v1

API Key 留空,或者随便填个字符串(有些版本要求非空)。

模型名称填你刚才拉取的,比如:

deepseek-coder:6.7b
信息

Cursor 用 OpenAI chat completions 格式发请求。Ollama 的 /v1 端点会自动转换,不需要额外代理。

5. 测试一下

打开一个文件,按 Ctrl/Cmd + L 打开聊天面板,问个简单的问题:

写一个不用切片来反转字符串的 Python 函数。

如果有回复,说明连上了。如果卡住,检查一下 ollama serve 是否在跑,以及模型名称是否完全匹配。

LM Studio + Cursor:一步步来

如果你想要一个带 GUI 的模型下载和切换工具,LM Studio 是更好的选择。

1. 安装 LM Studio

lmstudio.ai 下载。支持 macOS、Windows 和 Linux。

2. 下载模型

打开 LM Studio,进入 Discover 标签页,搜索代码模型。推荐这几个:

  • TheBloke/CodeLlama-7B-Instruct-GGUF
  • TheBloke/DeepSeek-Coder-6.7B-Instruct-GGUF
  • Qwen/Qwen2.5-Coder-7B-Instruct-GGUF

下载 Q4_K_M 或 Q5_K_M 量化版本,在体积和质量之间取个平衡。

3. 启动本地服务器

在 LM Studio 里,点击左侧的 Local Server 标签页。加载模型,然后点 Start Server

默认跑在:

http://localhost:1234/v1

4. 配置 Cursor

和 Ollama 一样。在 Cursor Settings > Models > OpenAI API Key 里设置:

http://localhost:1234/v1

模型名称可以留 local-model 或者随便填。LM Studio 会忽略模型名称,直接用当前加载的模型。

5. 验证

跑同样的测试提示词。LM Studio 的服务器日志会显示收到的请求,调试起来很方便。

什么能做什么不能做

本地模型不是 Claude 3.5 Sonnet 或 GPT-4o 的平替。实话实说:

任务本地 7B-13B云端 (Claude/GPT-4)
简单重构不错优秀
样板代码生成不错优秀
复杂架构决策较弱优秀
理解大型代码库较弱优秀
多文件编辑较弱不错
速度(有 GPU)取决于网络
速度(仅 CPU)取决于网络
注意

在 CPU 上跑 13B 模型,每次回复可能要等 10-30 秒。现代 GPU(RTX 3060 或更好)能把时间压到 1-3 秒。心里要有数。

混合策略:更务实的做法

大多数坚持本地模型的开发者不会完全放弃云端,而是采用混合 workflow:

  1. 本地模型做简单、安全的任务:修 lint、重命名、简单正则、解释函数。
  2. 云端模型做重活:设计新功能、调试棘手问题、跨文件重构。
  3. 按项目切换:开源或不敏感的代码用云端;闭源代码或受监管的代码用本地。

Cursor 切换模型很方便,改设置就行,不用重启 IDE。有人甚至开两个 Cursor 窗口——一个连本地,一个连云端——虽然这更像是 workaround 而不是功能。

提示

如果你用的是 Apple Silicon Mac,Ollama 对 Neural Engine 的优化很好。MacBook Pro M3 Pro 能以可用的速度跑 13B 模型,而且不会像独显那样疯狂耗电。

常见问题排查

"Connection refused" 错误

  • 检查服务器是否在跑(ollama serve 或 LM Studio 的 server 标签页)。
  • 确认端口:Ollama 用 11434,LM Studio 用 1234。
  • 检查防火墙或公司代理。

回复太慢

  • 换个小模型,或者降低量化精度(Q5 改 Q4)。
  • 确认 GPU 是否在干活。Ollama 日志加载时会显示 GPUCPU
  • 关掉其他吃 GPU 的应用。

输出胡言乱语

  • 模型名称可能没对上。Ollama 对名称很挑剔,必须完全匹配。
  • 有些模型需要特定的 prompt 格式。Instruct 模型比 base 模型更适合聊天。

Cursor 无视本地设置

  • 确保你覆盖的是 OpenAI base URL,而不是只加了自定义模型。
  • 改了 base URL 后重启 Cursor。

写在最后

本地 LLM 配合 Cursor,在今天已经能应付一部分任务了。它们不如云端模型强大,但对注重隐私的开发者,或者在受限环境里工作的人来说,往往已经够用了。想快速上手选 Ollama,喜欢 GUI 选 LM Studio。模型选择和 workflow 需要多试几次,才能找到适合自己项目的组合。