post cover

技术热点落地:Ollama + Continue.dev 本地 AI 编程助手全家桶(2026-05-15)


适用场景与目标

谁适合用这套全家桶?

  • 对代码隐私有强需求的开发者(正在处理专有代码、涉密项目、受监管行业)
  • 希望降低 AI 编程成本(不再支付 Copilot 月费或云端 API 调用费)
  • 需要离线工作能力的移动开发者或旅行开发者
  • 已经对 AI 辅助编程有基础认知,想搭建个性化、本地可控的工具链

核心目标:

搭建一套在 VS Code / JetBrains / Neovim 中运行的本地 AI 编程助手,实现:

  • 聊天问答(问代码逻辑、解释报错、给方案)
  • 代码补全(Tab 级别的实时代码建议)
  • 多文件编辑(直接让 AI 修改项目中的多个文件)
  • 完全离线 + 完全私密,零数据上云

最小可行方案(MVP)步骤

第一步:安装 Ollama(5 分钟)

Ollama 是目前最流行的本地大模型运行时,将复杂推理引擎封装成一条命令。

Mac / Linux:

curl -fsSL https://ollama.com/install.sh | sh

Windows:ollama.com/download 下载安装。

验证安装:

ollama --version

第二步:拉取适合编程的模型(10-30 分钟,视网速而定)

本地编程助手建议双模型组合

用途推荐模型硬件要求Pull 命令
代码补全(Tab)qwen2.5-coder:1.5b8GB RAM,无独显也行ollama pull qwen2.5-coder:1.5b
聊天推理qwen2.5-coder:7b16GB RAM / 8GB VRAMollama pull qwen2.5-coder:7b

💡 如果你只有 8GB 统一内存的轻薄本,用 llama3.2:3b 做补全,llama3.2:8b 做聊天。

进阶配置(24GB+ VRAM):

# 补全用小模型,聊天用大模型
ollama pull llama3.2:3b        # 补全,低延迟
ollama pull qwen2.5-coder:14b   # 聊天,高质量

第三步:启动 Ollama 服务

ollama serve
# 默认监听 http://localhost:11434

Ollama 会在后台运行,之后 Continue.dev 通过这个端口连接模型。

第四步:安装 Continue.dev 插件

在 VS Code 中:Ctrl+Shift+X → 搜索 “Continue” → 安装由 continue@continue.dev 出品的扩展。

注意:JetBrains 和 Neovim 用户同样可以安装,搜索插件名即可。


关键实现细节

Continue.dev 配置(核心)

安装完成后,点击 VS Code 左侧Continue图标 → Config → 打开 config.json

以下是一份经过验证的生产级配置,双模型分工:

{
  "models": [
    {
      "title": "Qwen 7B Coder",
      "provider": "ollama",
      "model": "qwen2.5-coder:7b",
      "api_base": "http://localhost:11434"
    }
  ],
  "tabAutocompleteModel": {
    "title": "Qwen 1.5B Coder",
    "provider": "ollama",
    "model": "qwen2.5-coder:1.5b",
    "api_base": "http://localhost:11434"
  },
  "allowAnonymousTelemetry": false,
  "retrieveContext": [
    {
      "provider": "open",
      "filter": ["*.py", "*.js", "*.ts", "*.go", "*.md"]
    },
    {
      "provider": "http",
      "url": "http://localhost:11434"
    }
  ]
}

关键配置解释:

  • tabAutocompleteModel 分开配置:补全用小模型(qwen2.5-coder:1.5b),延迟 <200ms;聊天用大模型,质量更高
  • api_base 指向本地 Ollama:数据完全不经过任何云端
  • allowAnonymousTelemetry: false:关闭遥测上传,保护隐私

Ollama 模型管理与调优

查看已安装模型:

ollama list

删除不需要的模型(节省磁盘):

ollama rm llama3.1:8b

修改模型参数( temperature / top_p): Ollama 支持在请求时传参:

curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5-coder:7b",
  "prompt": "写一个快速排序",
  "options": {"temperature": 0.3, "num_ctx": 4096}
}'

在 Continue.dev 中也可直接在 config.jsonmodels[].options 中覆盖:

{
  "title": "Qwen 7B Coder",
  "provider": "ollama",
  "model": "qwen2.5-coder:7b",
  "options": {
    "temperature": 0.2,
    "num_ctx": 8192,
    "num_gpu": 1
  }
}

num_gpu: 1 强制使用 GPU 加速,没有独显则设为 0 使用 CPU 推理(慢 5-10 倍)。

访问远程 Ollama 服务器(团队共享场景)

如果你有远程服务器上的 Ollama(实验室服务器、NAS 等),在 config.json 中修改 api_base

{
  "model": "qwen2.5-coder:7b",
  "api_base": "http://192.168.1.100:11434"
}

⚠️ 远程推理时网络延迟会影响体验,建议同一局域网或低延迟 VPN 环境使用。


常见坑与规避清单

坑 1:模型下载后第一次运行特别慢

原因: Ollama 首次运行需要将模型加载到内存,量化模型也需要实时解压。 规避: 使用 ollama run <model> 提前预热。运行一次后再用于 Continue.dev。

ollama run qwen2.5-coder:7b "你好"

坑 2:补全延迟高达数秒,根本没法用

原因: 默认的 Tab 模型太大,推测速度慢。 解决: 严格使用 1.5B 量级的小模型做补全;关闭 config.json 中其他干扰选项:

"tabAutocompleteModel": {
  "title": "Qwen 1.5B",
  "model": "qwen2.5-coder:1.5b",
  "provider": "ollama",
  "api_base": "http://localhost:11434"
}

硬件加速检查(Mac M 系列):

# 查看 Ollama 是否使用了 Apple Silicon GPU
# 如果输出中没有 GPU 相关日志,说明没有用到 NPU
# 环境变量强制开启:
OLLAMA_METAL=1 ollama serve

坑 3:遇到长上下文代码直接崩溃或截断

原因: Ollama 默认上下文窗口较小(4K-8K),大文件会丢失前面的内容。 解决: 在启动 Ollama 时扩大上下文:

export OLLAMA_NUM_CTX=16384
ollama serve

或在 config.json 中通过 options.num_ctx 设置。

坑 4:Continue.dev 连接 Ollama 失败

排查顺序:

  1. Ollama 是否在运行?curl http://localhost:11434 能返回说明正常
  2. 模型是否已拉取?ollama list 检查
  3. 是否有多余的 /v1 路径?Ollama 使用 /api/generate 而非 OpenAI 兼容路径

坑 5:内存不够,模型跑不起来

解决思路:

  • 使用更小的量化版本(如 qwen2.5-coder:3b 而非 7b
  • 启用 Swap:Mac 上系统会自动管理;Linux 上:
    # 创建 16GB swap
    sudo fallocate -l 16G /swapfile
    sudo chmod 600 /swapfile
    sudo mkswap /swapfile
    sudo swapon /swapfile

成本 / 性能 / 维护权衡

成本对比

方案月成本数据隐私离线可用
GitHub Copilot$10/月❌ 代码上传
OpenAI API(GPT-4)~$50-200/月(视用量)
本地 Ollama + Continue电费 ≈ $0✅ 完全私密✅ 完全离线

硬件推荐

使用场景推荐配置大致成本
入门(写代码、补全)Mac M1/M2/M3(16GB+ RAM)已有设备无需额外花费
进阶(聊天推理)24GB VRAM(如 RTX 3090/4090)显卡一次性投入
团队共享Linux 主机 + RTX 4090 + 远程访问服务器成本分摊

维护成本

  • 模型更新:Ollama 官方约每月更新一次,新模型持续发布。更新命令:ollama pull <model>(重复拉取自动覆盖)
  • 扩展更新:Continue.dev 在 VS Code 市场中更新,设置为自动更新
  • 磁盘空间:每个模型占用 1-10GB。建议定期 ollama list 检查,删除不再使用的模型

一周内可执行行动清单

Day 1-2:环境搭建

  • 安装 Ollama,运行 ollama run qwen2.5-coder:1.5b 验证本地推理
  • 安装 Continue.dev 插件,配置 config.json 启用双模型分工
  • 测试在 VS Code 中让 AI 解释一个你最近写的函数

Day 3-4:工作流集成

  • 将本地 AI 编程引入你当前的真实项目(选一个中等规模的项目)
  • 用 AI 辅助完成一次代码重构(让 AI 分析并提出修改建议)
  • 测试 Tab 补全是否流畅,调整模型参数优化延迟

Day 5-6:隐私与安全加固

  • 确认 allowAnonymousTelemetry: false
  • 若有远程 Ollama 服务器,配置 SSH 隧道加密通信
  • 制定模型更新计划(季度检查新模型,评估是否升级)

Day 7:总结与优化

  • 记录这套方案为你节省了多少时间(对比没有 AI 辅助的日子)
  • 根据你的硬件配置,调优 num_ctxnum_gpu 参数
  • 探索 Continue.dev 的 slash commands 自定义功能,打造专属工作流

总结: Ollama + Continue.dev 这套组合,将本地大模型推理和 IDE 无缝集成,实现零成本的私密 AI 编程环境。对于隐私敏感项目或希望降低 AI 工具开销的团队,这是一条已经产品化、值得日常使用的路径。唯一的前提是:你愿意花半天时间搭好环境,然后用它一整年。