技术热点落地:Ollama + Continue.dev 本地 AI 编程助手全家桶(2026-05-15)
适用场景与目标
谁适合用这套全家桶?
- 对代码隐私有强需求的开发者(正在处理专有代码、涉密项目、受监管行业)
- 希望降低 AI 编程成本(不再支付 Copilot 月费或云端 API 调用费)
- 需要离线工作能力的移动开发者或旅行开发者
- 已经对 AI 辅助编程有基础认知,想搭建个性化、本地可控的工具链
核心目标:
搭建一套在 VS Code / JetBrains / Neovim 中运行的本地 AI 编程助手,实现:
- 聊天问答(问代码逻辑、解释报错、给方案)
- 代码补全(Tab 级别的实时代码建议)
- 多文件编辑(直接让 AI 修改项目中的多个文件)
- 完全离线 + 完全私密,零数据上云
最小可行方案(MVP)步骤
第一步:安装 Ollama(5 分钟)
Ollama 是目前最流行的本地大模型运行时,将复杂推理引擎封装成一条命令。
Mac / Linux:
curl -fsSL https://ollama.com/install.sh | sh
Windows: 从 ollama.com/download 下载安装。
验证安装:
ollama --version
第二步:拉取适合编程的模型(10-30 分钟,视网速而定)
本地编程助手建议双模型组合:
| 用途 | 推荐模型 | 硬件要求 | Pull 命令 |
|---|---|---|---|
| 代码补全(Tab) | qwen2.5-coder:1.5b | 8GB RAM,无独显也行 | ollama pull qwen2.5-coder:1.5b |
| 聊天推理 | qwen2.5-coder:7b | 16GB RAM / 8GB VRAM | ollama pull qwen2.5-coder:7b |
💡 如果你只有 8GB 统一内存的轻薄本,用
llama3.2:3b做补全,llama3.2:8b做聊天。
进阶配置(24GB+ VRAM):
# 补全用小模型,聊天用大模型
ollama pull llama3.2:3b # 补全,低延迟
ollama pull qwen2.5-coder:14b # 聊天,高质量
第三步:启动 Ollama 服务
ollama serve
# 默认监听 http://localhost:11434
Ollama 会在后台运行,之后 Continue.dev 通过这个端口连接模型。
第四步:安装 Continue.dev 插件
在 VS Code 中:Ctrl+Shift+X → 搜索 “Continue” → 安装由 continue@continue.dev 出品的扩展。
注意:JetBrains 和 Neovim 用户同样可以安装,搜索插件名即可。
关键实现细节
Continue.dev 配置(核心)
安装完成后,点击 VS Code 左侧Continue图标 → Config → 打开 config.json。
以下是一份经过验证的生产级配置,双模型分工:
{
"models": [
{
"title": "Qwen 7B Coder",
"provider": "ollama",
"model": "qwen2.5-coder:7b",
"api_base": "http://localhost:11434"
}
],
"tabAutocompleteModel": {
"title": "Qwen 1.5B Coder",
"provider": "ollama",
"model": "qwen2.5-coder:1.5b",
"api_base": "http://localhost:11434"
},
"allowAnonymousTelemetry": false,
"retrieveContext": [
{
"provider": "open",
"filter": ["*.py", "*.js", "*.ts", "*.go", "*.md"]
},
{
"provider": "http",
"url": "http://localhost:11434"
}
]
}
关键配置解释:
tabAutocompleteModel分开配置:补全用小模型(qwen2.5-coder:1.5b),延迟 <200ms;聊天用大模型,质量更高api_base指向本地 Ollama:数据完全不经过任何云端allowAnonymousTelemetry: false:关闭遥测上传,保护隐私
Ollama 模型管理与调优
查看已安装模型:
ollama list
删除不需要的模型(节省磁盘):
ollama rm llama3.1:8b
修改模型参数( temperature / top_p): Ollama 支持在请求时传参:
curl http://localhost:11434/api/generate -d '{
"model": "qwen2.5-coder:7b",
"prompt": "写一个快速排序",
"options": {"temperature": 0.3, "num_ctx": 4096}
}'
在 Continue.dev 中也可直接在 config.json 的 models[].options 中覆盖:
{
"title": "Qwen 7B Coder",
"provider": "ollama",
"model": "qwen2.5-coder:7b",
"options": {
"temperature": 0.2,
"num_ctx": 8192,
"num_gpu": 1
}
}
num_gpu: 1强制使用 GPU 加速,没有独显则设为0使用 CPU 推理(慢 5-10 倍)。
访问远程 Ollama 服务器(团队共享场景)
如果你有远程服务器上的 Ollama(实验室服务器、NAS 等),在 config.json 中修改 api_base:
{
"model": "qwen2.5-coder:7b",
"api_base": "http://192.168.1.100:11434"
}
⚠️ 远程推理时网络延迟会影响体验,建议同一局域网或低延迟 VPN 环境使用。
常见坑与规避清单
坑 1:模型下载后第一次运行特别慢
原因: Ollama 首次运行需要将模型加载到内存,量化模型也需要实时解压。
规避: 使用 ollama run <model> 提前预热。运行一次后再用于 Continue.dev。
ollama run qwen2.5-coder:7b "你好"
坑 2:补全延迟高达数秒,根本没法用
原因: 默认的 Tab 模型太大,推测速度慢。
解决: 严格使用 1.5B 量级的小模型做补全;关闭 config.json 中其他干扰选项:
"tabAutocompleteModel": {
"title": "Qwen 1.5B",
"model": "qwen2.5-coder:1.5b",
"provider": "ollama",
"api_base": "http://localhost:11434"
}
硬件加速检查(Mac M 系列):
# 查看 Ollama 是否使用了 Apple Silicon GPU
# 如果输出中没有 GPU 相关日志,说明没有用到 NPU
# 环境变量强制开启:
OLLAMA_METAL=1 ollama serve
坑 3:遇到长上下文代码直接崩溃或截断
原因: Ollama 默认上下文窗口较小(4K-8K),大文件会丢失前面的内容。 解决: 在启动 Ollama 时扩大上下文:
export OLLAMA_NUM_CTX=16384
ollama serve
或在 config.json 中通过 options.num_ctx 设置。
坑 4:Continue.dev 连接 Ollama 失败
排查顺序:
- Ollama 是否在运行?
curl http://localhost:11434能返回说明正常 - 模型是否已拉取?
ollama list检查 - 是否有多余的
/v1路径?Ollama 使用/api/generate而非 OpenAI 兼容路径
坑 5:内存不够,模型跑不起来
解决思路:
- 使用更小的量化版本(如
qwen2.5-coder:3b而非7b) - 启用 Swap:Mac 上系统会自动管理;Linux 上:
# 创建 16GB swap sudo fallocate -l 16G /swapfile sudo chmod 600 /swapfile sudo mkswap /swapfile sudo swapon /swapfile
成本 / 性能 / 维护权衡
成本对比
| 方案 | 月成本 | 数据隐私 | 离线可用 |
|---|---|---|---|
| GitHub Copilot | $10/月 | ❌ 代码上传 | ❌ |
| OpenAI API(GPT-4) | ~$50-200/月(视用量) | ❌ | ❌ |
| 本地 Ollama + Continue | 电费 ≈ $0 | ✅ 完全私密 | ✅ 完全离线 |
硬件推荐
| 使用场景 | 推荐配置 | 大致成本 |
|---|---|---|
| 入门(写代码、补全) | Mac M1/M2/M3(16GB+ RAM) | 已有设备无需额外花费 |
| 进阶(聊天推理) | 24GB VRAM(如 RTX 3090/4090) | 显卡一次性投入 |
| 团队共享 | Linux 主机 + RTX 4090 + 远程访问 | 服务器成本分摊 |
维护成本
- 模型更新:Ollama 官方约每月更新一次,新模型持续发布。更新命令:
ollama pull <model>(重复拉取自动覆盖) - 扩展更新:Continue.dev 在 VS Code 市场中更新,设置为自动更新
- 磁盘空间:每个模型占用 1-10GB。建议定期
ollama list检查,删除不再使用的模型
一周内可执行行动清单
Day 1-2:环境搭建
- 安装 Ollama,运行
ollama run qwen2.5-coder:1.5b验证本地推理 - 安装 Continue.dev 插件,配置
config.json启用双模型分工 - 测试在 VS Code 中让 AI 解释一个你最近写的函数
Day 3-4:工作流集成
- 将本地 AI 编程引入你当前的真实项目(选一个中等规模的项目)
- 用 AI 辅助完成一次代码重构(让 AI 分析并提出修改建议)
- 测试 Tab 补全是否流畅,调整模型参数优化延迟
Day 5-6:隐私与安全加固
- 确认
allowAnonymousTelemetry: false - 若有远程 Ollama 服务器,配置 SSH 隧道加密通信
- 制定模型更新计划(季度检查新模型,评估是否升级)
Day 7:总结与优化
- 记录这套方案为你节省了多少时间(对比没有 AI 辅助的日子)
- 根据你的硬件配置,调优
num_ctx、num_gpu参数 - 探索 Continue.dev 的 slash commands 自定义功能,打造专属工作流
总结: Ollama + Continue.dev 这套组合,将本地大模型推理和 IDE 无缝集成,实现零成本的私密 AI 编程环境。对于隐私敏感项目或希望降低 AI 工具开销的团队,这是一条已经产品化、值得日常使用的路径。唯一的前提是:你愿意花半天时间搭好环境,然后用它一整年。