May 15, 2026

技术热点落地：Ollama + Continue.dev 本地 AI 编程助手全家桶（2026-05-15）

适用场景与目标

谁适合用这套全家桶？

对代码隐私有强需求的开发者（正在处理专有代码、涉密项目、受监管行业）
希望降低 AI 编程成本（不再支付 Copilot 月费或云端 API 调用费）
需要离线工作能力的移动开发者或旅行开发者
已经对 AI 辅助编程有基础认知，想搭建个性化、本地可控的工具链

核心目标：

搭建一套在 VS Code / JetBrains / Neovim 中运行的本地 AI 编程助手，实现：

聊天问答（问代码逻辑、解释报错、给方案）
代码补全（Tab 级别的实时代码建议）
多文件编辑（直接让 AI 修改项目中的多个文件）
完全离线 + 完全私密，零数据上云

最小可行方案（MVP）步骤

第一步：安装 Ollama（5 分钟）

Ollama 是目前最流行的本地大模型运行时，将复杂推理引擎封装成一条命令。

Mac / Linux：

curl -fsSL https://ollama.com/install.sh | sh

Windows： 从 ollama.com/download 下载安装。

验证安装：

ollama --version

第二步：拉取适合编程的模型（10-30 分钟，视网速而定）

本地编程助手建议双模型组合：

用途	推荐模型	硬件要求	Pull 命令
代码补全（Tab）	`qwen2.5-coder:1.5b`	8GB RAM，无独显也行	`ollama pull qwen2.5-coder:1.5b`
聊天推理	`qwen2.5-coder:7b`	16GB RAM / 8GB VRAM	`ollama pull qwen2.5-coder:7b`

💡 如果你只有 8GB 统一内存的轻薄本，用 llama3.2:3b 做补全，llama3.2:8b 做聊天。

进阶配置（24GB+ VRAM）：

# 补全用小模型，聊天用大模型
ollama pull llama3.2:3b        # 补全，低延迟
ollama pull qwen2.5-coder:14b   # 聊天，高质量

第三步：启动 Ollama 服务

ollama serve
# 默认监听 http://localhost:11434

Ollama 会在后台运行，之后 Continue.dev 通过这个端口连接模型。

第四步：安装 Continue.dev 插件

在 VS Code 中：Ctrl+Shift+X → 搜索 “Continue” → 安装由 continue@continue.dev 出品的扩展。

注意：JetBrains 和 Neovim 用户同样可以安装，搜索插件名即可。

关键实现细节

Continue.dev 配置（核心）

安装完成后，点击 VS Code 左侧Continue图标 → Config → 打开 config.json。

以下是一份经过验证的生产级配置，双模型分工：

{
  "models": [
    {
      "title": "Qwen 7B Coder",
      "provider": "ollama",
      "model": "qwen2.5-coder:7b",
      "api_base": "http://localhost:11434"
    }
  ],
  "tabAutocompleteModel": {
    "title": "Qwen 1.5B Coder",
    "provider": "ollama",
    "model": "qwen2.5-coder:1.5b",
    "api_base": "http://localhost:11434"
  },
  "allowAnonymousTelemetry": false,
  "retrieveContext": [
    {
      "provider": "open",
      "filter": ["*.py", "*.js", "*.ts", "*.go", "*.md"]
    },
    {
      "provider": "http",
      "url": "http://localhost:11434"
    }
  ]
}

关键配置解释：

tabAutocompleteModel 分开配置：补全用小模型（qwen2.5-coder:1.5b），延迟 <200ms；聊天用大模型，质量更高
api_base 指向本地 Ollama：数据完全不经过任何云端
allowAnonymousTelemetry: false：关闭遥测上传，保护隐私

Ollama 模型管理与调优

查看已安装模型：

ollama list

删除不需要的模型（节省磁盘）：

ollama rm llama3.1:8b

修改模型参数（ temperature / top_p）： Ollama 支持在请求时传参：

curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5-coder:7b",
  "prompt": "写一个快速排序",
  "options": {"temperature": 0.3, "num_ctx": 4096}
}'

在 Continue.dev 中也可直接在 config.json 的 models[].options 中覆盖：

{
  "title": "Qwen 7B Coder",
  "provider": "ollama",
  "model": "qwen2.5-coder:7b",
  "options": {
    "temperature": 0.2,
    "num_ctx": 8192,
    "num_gpu": 1
  }
}

num_gpu: 1 强制使用 GPU 加速，没有独显则设为 0 使用 CPU 推理（慢 5-10 倍）。

访问远程 Ollama 服务器（团队共享场景）

如果你有远程服务器上的 Ollama（实验室服务器、NAS 等），在 config.json 中修改 api_base：

{
  "model": "qwen2.5-coder:7b",
  "api_base": "http://192.168.1.100:11434"
}

⚠️ 远程推理时网络延迟会影响体验，建议同一局域网或低延迟 VPN 环境使用。

常见坑与规避清单

坑 1：模型下载后第一次运行特别慢

原因： Ollama 首次运行需要将模型加载到内存，量化模型也需要实时解压。 规避： 使用 ollama run <model> 提前预热。运行一次后再用于 Continue.dev。

ollama run qwen2.5-coder:7b "你好"

坑 2：补全延迟高达数秒，根本没法用

原因： 默认的 Tab 模型太大，推测速度慢。 解决： 严格使用 1.5B 量级的小模型做补全；关闭 config.json 中其他干扰选项：

"tabAutocompleteModel": {
  "title": "Qwen 1.5B",
  "model": "qwen2.5-coder:1.5b",
  "provider": "ollama",
  "api_base": "http://localhost:11434"
}

硬件加速检查（Mac M 系列）：

# 查看 Ollama 是否使用了 Apple Silicon GPU
# 如果输出中没有 GPU 相关日志，说明没有用到 NPU
# 环境变量强制开启：
OLLAMA_METAL=1 ollama serve

坑 3：遇到长上下文代码直接崩溃或截断

原因： Ollama 默认上下文窗口较小（4K-8K），大文件会丢失前面的内容。 解决： 在启动 Ollama 时扩大上下文：

export OLLAMA_NUM_CTX=16384
ollama serve

或在 config.json 中通过 options.num_ctx 设置。

坑 4：Continue.dev 连接 Ollama 失败

排查顺序：

Ollama 是否在运行？curl http://localhost:11434 能返回说明正常
模型是否已拉取？ollama list 检查
是否有多余的 /v1 路径？Ollama 使用 /api/generate 而非 OpenAI 兼容路径

坑 5：内存不够，模型跑不起来

解决思路：

使用更小的量化版本（如 qwen2.5-coder:3b 而非 7b）

启用 Swap：Mac 上系统会自动管理；Linux 上：

# 创建 16GB swap
sudo fallocate -l 16G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile

成本 / 性能 / 维护权衡

成本对比

方案	月成本	数据隐私	离线可用
GitHub Copilot	$10/月	❌ 代码上传	❌
OpenAI API（GPT-4）	~$50-200/月（视用量）	❌	❌
本地 Ollama + Continue	电费 ≈ $0	✅ 完全私密	✅ 完全离线

硬件推荐

使用场景	推荐配置	大致成本
入门（写代码、补全）	Mac M1/M2/M3（16GB+ RAM）	已有设备无需额外花费
进阶（聊天推理）	24GB VRAM（如 RTX 3090/4090）	显卡一次性投入
团队共享	Linux 主机 + RTX 4090 + 远程访问	服务器成本分摊

维护成本

模型更新：Ollama 官方约每月更新一次，新模型持续发布。更新命令：ollama pull <model>（重复拉取自动覆盖）
扩展更新：Continue.dev 在 VS Code 市场中更新，设置为自动更新
磁盘空间：每个模型占用 1-10GB。建议定期 ollama list 检查，删除不再使用的模型

一周内可执行行动清单

Day 1-2：环境搭建

安装 Ollama，运行 ollama run qwen2.5-coder:1.5b 验证本地推理
安装 Continue.dev 插件，配置 config.json 启用双模型分工
测试在 VS Code 中让 AI 解释一个你最近写的函数

Day 3-4：工作流集成

将本地 AI 编程引入你当前的真实项目（选一个中等规模的项目）
用 AI 辅助完成一次代码重构（让 AI 分析并提出修改建议）
测试 Tab 补全是否流畅，调整模型参数优化延迟

Day 5-6：隐私与安全加固

确认 allowAnonymousTelemetry: false
若有远程 Ollama 服务器，配置 SSH 隧道加密通信
制定模型更新计划（季度检查新模型，评估是否升级）

Day 7：总结与优化

记录这套方案为你节省了多少时间（对比没有 AI 辅助的日子）
根据你的硬件配置，调优 num_ctx、num_gpu 参数
探索 Continue.dev 的 slash commands 自定义功能，打造专属工作流

总结： Ollama + Continue.dev 这套组合，将本地大模型推理和 IDE 无缝集成，实现零成本的私密 AI 编程环境。对于隐私敏感项目或希望降低 AI 工具开销的团队，这是一条已经产品化、值得日常使用的路径。唯一的前提是：你愿意花半天时间搭好环境，然后用它一整年。