本地离线大模型实战：Ollama + Llama 3.1 8B 全流程部署适配VSCode Continue代码助手

作者：袖梨 2026-07-02

前言

之前一直依赖云端AI写代码、整理文案，但一是敏感代码不敢上传公网，二是网络波动经常卡顿。折腾一周，把Llama3.1 8B部署到普通Windows台式机，搭配Ollama一键调度，还打通了VSCode Continue插件实现本地AI编码助手。全程免费、完全离线、16G内存就能流畅跑，8G内存降负载也能凑合用，把踩坑全过程整理成保姆级教程。

一、环境前置说明

硬件门槛

最低：8G内存（仅聊天、短句问答，速度偏慢）
推荐：16G及以上内存（完整支持代码生成、Agent工具调用）
显卡：有无N卡都行，有显卡会自动加速，纯CPU也可运行

系统

Windows 10/11、macOS、Linux通用，本文以Windows为主操作演示

二、Ollama安装（改安装盘+模型存储盘，拒绝塞满C盘）

1. 本体安装到D盘

官网下载安装包
不要双击直接安装，打开下载文件夹，地址栏输入cmd回车唤起命令行
执行安装命令，指定D盘安装路径

OllamaSetup.exe /DIR=D:Ollama

等待进度走完，程序本体就安装在D盘，不占用C盘空间。

2. 模型文件迁移至D盘（核心，模型体积动辄5GB+）

D盘新建文件夹 D:ollama_models
系统环境变量配置：
- Win+R输入sysdm.cpl → 高级 → 环境变量
- 系统变量→新建：变量名OLLAMA_MODELS，变量值D:ollama_models
生效配置：重启电脑，或终端执行服务重启指令

net stop ollama
net start ollama

后续所有下载的模型都会自动存到D盘目录。

3. 拉取Llama3.1 8B模型

打开任意终端，执行拉取指令，自动下载量化好的8B基础模型

ollama pull llama3.1:8b

下载完成后验证模型列表

ollama list

输出能看到llama3.1:8b即代表下载成功。

4. 基础终端对话测试

直接运行模型开启对话，断网也能正常问答

ollama run llama3.1:8b

输入问题即可交互，输入/bye退出对话窗口。

三、VSCode Continue插件对接本地模型（踩坑重点）

很多人装完插件识别不了模型、Agent模式黄标报错，这里把实测可用的配置方案写死。

1. 基础安装

VSCode扩展面板搜索Continue，安装插件后重启编辑器
先后台启动Ollama服务（必须常驻窗口，关闭则连接失效）

ollama serve

2. 配置文件关键：新版Continue仅识别config.yaml

打开文件资源管理器，地址栏输入路径直达配置目录

%USERPROFILE%.continue

2. 删除残留config.json文件，只保留/新建config.yaml 3. 粘贴完整兼容配置（适配Llama3.1工具调用、Agent模式）

name: ollama-llama31
version: 0.0.1
schema: v1models:
  - name: Llama 3.1 8B (Ollama)
    provider: ollama
    model: llama3.1:8b
    apiBase: 
    roles:
      - chat
      - autocomplete
    capabilities:
      - tool_use
    toolCallFormat: llama3
    contextWindow: 8192
    maxTokens: 2048tabAutocompleteModel:
  name: Llama 3.1 8B (Ollama)
  provider: ollama
  model: llama3.1:8b
  apiBase: selectedModel: Llama 3.1 8B (Ollama)systemMessage: |
  你是编程助手，必须优先使用工具调用完成任务，例如查看文件、搜索代码、列出目录。请用中文回答。experimental:
  ollamaCompatibleTools: true

3. 重启验证

保存yaml文件，完全关闭VSCode再重新打开
Ctrl+L唤起Continue侧边栏，底部模型下拉框选中Llama 3.1 8B (Ollama)
切换模式：Chat普通对话、Agent智能工具模式

四、高频踩坑问题解决方案

问题1：Agent模式出现黄色感叹号

核心原因：插件判定模型未开启工具调用能力
排查步骤
- 第一步：cmd终端执行curl测试模型原生工具支持

curl  -d "{"model":"llama3.1:8b","messages":[{"role":"user","content":"列出当前目录的文件"}],"stream":false,"tools":[{"type":"function","function":{"name":"listDir","description":"列出目录文件","parameters":{"type":"object","properties":{"dir":{"type":"string"}}}}}]}"

返回JSON包含tool_calls字段=模型本身支持；无则重装模型

ollama rm llama3.1:8b && ollama pull llama3.1:8b

第二步：核对yaml配置，确认存在capabilities: [- tool_use]、toolCallFormat: llama3、experimental兼容开关
第三步：彻底卸载Continue插件清除缓存，重装后重新加载配置

问题2：VSCode识别不到配置里的模型

检查yaml模型节点使用name字段（旧版title字段已失效）
必须配置roles: [chat,autocomplete]，缺失会直接隐藏模型选项
确认无残留config.json，插件优先读取json会覆盖yaml配置

问题3：C盘空间被模型占满

严格按照教程配置OLLAMA_MODELS环境变量迁移模型目录；已下载的模型可手动剪切.ollama/models文件夹到D盘路径，配置环境变量后重启服务即可无缝识别。

五、拓展优化与替代方案

图形化聊天界面：搭配Open WebUI，浏览器打开类ChatGPT页面管理多模型

docker run -d -p 3000:3000 -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

访问可视化对话

低配8G内存优化：替换更小体量通义千问轻量模型

ollama pull qwen:2b

工具调用稳定、内存占用更低

代码专项模型：写代码为主可拉取深度求索代码模型，代码理解能力优于原生Llama3.1 8B

ollama pull deepseek-coder:6.7b

结尾总结

Ollama把本地部署的门槛压到极低，不用复杂CUDA、PyTorch环境编译，一行命令搞定模型调度。搭配Continue插件后，完全实现本地离线AI编码，代码隐私零泄露。16G内存是体验分水岭，日常写脚本、调试代码、文档总结，Llama3.1 8B的能力完全够用，对于注重数据隐私、经常断网办公的开发者，这套组合性价比拉满。