在 AI 浪潮席卷各行各业的 2026 年,大语言模型早已不是云端巨头的专属玩具。从个人开发者到中小企业,越来越多的人希望在本地运行、微调或集成大模型——既要数据隐私,又要低延迟,还要摆脱高昂的 API 费用。这时,Ollama 几乎成了本地模型部署的标配答案。
Ollama 是一个轻量级、跨平台的本地大模型运行框架,它的核心设计哲学就两个字:简单。你不需要手动安装 CUDA、PyTorch 或任何 Python 依赖,只需一条命令就能把 Llama、Mistral、Gemma、Qwen(通义千问)等上百种开源模型拉取到本地,并立刻开始对话。
它的主要亮点包括:
/v1/chat/completions 格式,意味着你可以直接替换任何兼容 OpenAI 的应用。Modelfile 就能调整系统提示词、温度、上下文长度,甚至导入微调后的模型。无论你用的是哪种操作系统,Ollama 的安装都称得上“傻瓜式”。
直接使用 Homebrew 安装,或者从 ollama.com 下载 .dmg 包。
brew install ollama
一行脚本自动完成安装和系统服务注册。
curl -fsSL https://ollama.com/install.sh | sh
安装完成后,Ollama 会作为后台服务自动启动,你随时可以用 ollama list 检查状态。
在 ollama.com 下载 .exe 安装包,双击运行即可。安装后它会在系统托盘中运行,并自动配置好环境变量。如果你更习惯 WSL,也可以在 Ubuntu 子系统中直接使用 Linux 安装方式。
验证安装:
ollama --version
如果显示出类似 ollama version 0.5.1 的信息,恭喜你,部署已经完成了。
Ollama 的模型库中有大量即开即用的模型。以阿里通义千问系列的中文优化模型 qwen2.5:7b 为例(2026 年可能已有更新的 qwen3,你可以按需选择):
ollama pull gemma3:4b
pull 命令会自动下载模型文件(3.3GB),并缓存到本地。下载完成后,直接运行:
ollama run gemma3:4b
此时你的终端就变成了一个对话界面:

常用管理命令:
ollama listollama show gemma3:4bollama rm gemma3:4bollama cp gemma3:4b my-gemma3想要更换模型?一个 ollama pull llama3.2 再 ollama run llama3.2 就能立刻切换到 Meta 的模型。多模型共存,互不干扰。
仅在终端里聊天还不够,真正让 Ollama 发光的是它的 REST API。Ollama 默认在 localhost:11434 提供 HTTP 服务,无需额外配置(首次运行模型或执行 ollama serve 时会自动启动)。
用 curl 发送一次对话请求:
curl http://localhost:11434/api/chat -d '{
"model": "gemma3:4b",
"messages": [
{"role": "user", "content": "推荐三个适合初学者的机器学习项目"}
],
"stream": false
}'
返回的 JSON 中直接包含 message.content 字段。如果需要流式输出,把 stream 设为 true 即可。
这是 Ollama 最具杀伤力的特性:它提供了一个 OpenAI 兼容端点,任何使用 OpenAI Python 库、LangChain 或第三方客户端的代码,只需改一行 base_url 就能切到本地模型。
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1", # 注意这里是 /v1
api_key="ollama" # 随便填,但必填
)
response = client.chat.completions.create(
model="qwen2.5:7b",
messages=[{"role": "user", "content": "写一首关于秋天的五言绝句"}]
)
print(response.choices[0].message.content)
对,你没看错,api_key 可以写任何字符串。这种兼容性意味着你可以把 Ollama 直接接入到 Chatbox、Open WebUI、LangChain、AutoGPT 等海量现成应用中,本地模型瞬间拥有了 ChatGPT 同等“待遇”。
每个人的需求不同,有时你需要一个带有特定人设的模型,或者调整输出温度、上下文长度。Ollama 的 Modelfile 让你能像写 Dockerfile 一样定义模型行为。
创建一个名为 Modelfile 的文件:
FROM qwen2.5:7b # 设置系统提示词(角色设定) SYSTEM "你是一位精通 Python 和 Go 语言的高级后端工程师,回答问题时给出简洁、可运行的代码示例,并解释关键步骤。请用中文回答。" # 调高温度让回答更有创造性(默认 0.7) PARAMETER temperature 0.9 # 增大上下文窗口(默认 2048) PARAMETER num_ctx 4096
然后根据这个文件创建一个新模型:
ollama create my-code-master -f Modelfile
运行它:
ollama run my-code-master
现在这个模型已经内化了“高级工程师”的角色,你问它“如何用 Go 写一个并发安全的计数器?”,它会给出比通用模型更切中要点的答复。
你也可以将任何 GGUF 格式的微调模型通过 Modelfile 导入 Ollama,只需将 FROM 指向本地文件路径即可。
当你想用本地模型构建 RAG 知识库、智能代&理或文档问答系统时,Ollama 同样是最佳拍档。
from langchain_community.chat_models import ChatOllama from langchain_core.messages import HumanMessage llm = ChatOllama(model="qwen2.5:7b", temperature=0) response = llm.invoke([HumanMessage(content="用 Python 写一个冒泡排序")]) print(response.content)
from llama_index.llms.ollama import Ollama
llm = Ollama(model="qwen2.5:7b", request_timeout=120)
resp = llm.complete("什么是机器学习的过拟合?")
print(resp)
这些框架会将请求自动转发到 localhost:11434,你只需保证 Ollama 在后台运行即可。对于更复杂的生产环境,你还可以通过环境变量 OLLAMA_HOST=0.0.0.0:11434 将服务暴露给内网其他机器,甚至搭配 Nginx 做负载均衡。
Ollama 在安装时会自动检测 NVIDIA/AMD 显卡并启用 GPU 推理,无需手动配置。你可以用 ollama ps 查看当前模型占用的 GPU 内存。如果你有多个 GPU,可以通过环境变量 CUDA_VISIBLE_DEVICES 指定使用哪块卡。
模型默认使用 Q4_K_M 量化,能在速度和精度间取得较好平衡。如果你想节省内存(比如在 8GB 显卡上跑 13B 模型),可以尝试带有 q2_K 或 q3 标签的版本:
ollama pull qwen2.5:7b-q2_K
默认 Ollama 会并行处理多个请求,但受限于显存。你可以通过 OLLAMA_NUM_PARALLEL 环境变量调整最大并发数。另外,长上下文会消耗大量显存,可按需在 Modelfile 中设置 num_ctx。
如果模型太大导致 OOM(内存溢出),可以考虑:
OLLAMA_NUM_THREADS 限制线程数,但速度较慢)Ollama 的出现,真正把大模型从“只有深度学习工程师才能摆弄”的高阁拉回到了每一个开发者的终端里。它屏蔽了底层复杂的依赖和优化细节,却保留了足够的灵活性和可扩展性。无论你是想在个人项目中嵌入 AI 能力,还是在公司内部搭建隐私安全的 LLM 服务,Ollama 都是那个值得首选的“快速部署与使用”方案。
《王者荣耀世界》定云除厄记完成方法
LongCat-Video-Avatar 1.5开源:具备全领域泛化能力的音频驱动视频生成模型;AI Student Impact Dataset 5 万量级多
什么是 RAG?为什么仅靠大模型的记忆力远远不够
Agent 开发:你当真需要框架吗?
BoxAgnts 工具系统(4)——Tool Trait 和并发上下文模型
老板:“你是怎么使用 AI 的:真能做到不手写代码?为什么 Codex 在我手里感觉是个智障。。”我:“这样:然后再这样。。”老板直接跪了。