面向大模型入门用户 – 从零安装、环境变量配置到模型管理与 API 调用,一站式搞定。

1️⃣ 多平台快速安装

平台 安装方式
macOS 访问官方页面直接下载桌面版
Windows 访问官方页面下载 OllamaSetup.exe
Linux 运行一条 curl 脚本即可完成`curl -fsSL https://ollama.com/install.sh
Docker 拉取官方镜像 docker run -p 11434:11434 ollama/ollama

提示:Linux 版的脚本会自动把 ollama 二进制放到系统路径下,并创建 ollama 系统服务,后续可以用 systemctl 管理。


2️⃣ 环境变量 & 服务配置

Ollama 通过环境变量控制监听地址、模型存储路径、并发数等。不同系统的配置方式略有差异。

2.1 常用环境变量(跨平台)

变量 功能 示例
OLLAMA_HOST 绑定的 IP(默认 127.0.0.1 OLLAMA_HOST=0.0.0.0 让外网可访问
OLLAMA_MODELS 模型存放目录(默认见下表) OLLAMA_MODELS=/mnt/ollama/models
OLLAMA_KEEP_ALIVE 模型在内存中保活时长,1h 表示 1 小时
OLLAMA_PORT HTTP 服务端口,默认 11434
OLLAMA_NUM_PARALLEL 同时处理的请求数,默认随硬件自动调节
OLLAMA_MAX_LOADED_MODELS 同时加载模型的上限,防止显存/内存被占满

2.2 默认模型存放路径

系统 默认目录
macOS ~/.ollama/models
Linux /usr/share/ollama/.ollama/models
Windows C:\Users\<username>\.ollama\models

2.3 OS‑Specific 设置方法

系统 关键步骤
macOS 使用 launchctl setenv 为每个变量设置,然后重启 Ollama 应用
Linux 编辑 ollama.servicesystemctl edit ollama.service),在 [Service] 下添加 Environment="VAR=VALUE",最后 systemctl daemon-reload && systemctl restart ollama
Windows 在「系统属性 → 环境变量」中新建变量,如 OLLAMA_HOSTOLLAMA_MODELS,退出 Ollama 并重新启动以生效

小技巧:修改完变量后,务必 重启 Ollama(或重新加载 systemd)让新配置生效。


3️⃣ 核心 CLI 命令一览

下面列出常用的 ollama 子命令,配合 --help 可查看完整参数说明。

命令 说明
ollama serve 启动后台服务(不打开桌面 UI)
ollama pull <model> 拉取模型(等价于第一次 ollama run
ollama run <model> 交互式对话或一次性生成(首次会自动 pull
ollama list 列出本机已下载的模型
ollama ps 查看当前已加载到内存(CPU/GPU)的模型
ollama show <model> 查看模型元信息
ollama create <name> -f Modelfile 基于自定义 Modelfile 构建新模型
ollama rm <model> 删除本地模型
ollama cp <src> <dst> 复制模型(用于迁移或备份)

实战:想把 qwen3:30b 直接拉取并对话,只需一行 ollama run qwen3:30b


4️⃣ 常用模型快速上手

Ollama 官方库提供了多种模型,下面列出常见几款及对应的拉取命令(模型大小在括号,单位 GB)【6†L51-L65】。

1
2
3
4
ollama run qwen3:235b        # 23bB, 142GB
ollama run qwen3:30b # 30B, 18GB
ollama run deepseek-r1:32b # 32B, 19GB
ollama run qwen3-vl:8b # 8B, 6.1GB (Vision)

内存要求

  • 8 GB RAM 可运行 7B 模型;
  • 16 GB RAM 推荐运行 13B 以上模型;
  • 32 GB+ RAM 可流畅运行 33 B+ 大模型。

5️⃣ 自定义模型(Modelfile)

5.1 Modelfile 基本语法

1
2
# comment
INSTRUCTION arguments

常用指令包括:

指令 作用
FROM 指定基模型(必填)
PARAMETER 设置推理参数(temperature、num_ctx 等)
SYSTEM 自定义系统提示
ADAPTER 加载 LoRA / QLoRA 适配器
LICENSE 声明模型版权
MESSAGE 固定对话历史

示例(基于 llama3.2,温度 1、上下文 4096、系统提示):

1
2
3
4
FROM llama3.2
PARAMETER temperature 1
PARAMETER num_ctx 4096
SYSTEM You are Mario from Super Mario Bros, answering as Mario.

5.2 创建 & 运行自定义模型

1
2
3
4
5
6
7
8
9
10
11
12
# 1️⃣ 保存为 Modelfile
cat > Modelfile <<EOF
FROM llama3.2
PARAMETER temperature 1
SYSTEM You are Mario...
EOF

# 2️⃣ 构建模型
ollama create mario -f Modelfile

# 3️⃣ 使用模型
ollama run mario

温度 / 上下文:在交互式会话里也可以随时通过 /set parameter 调整,例如 /set parameter num_ctx 4096


6️⃣ GPU 加速与并发控制

6.1 GPU 兼容性

官方文档提供 GPU 兼容列表(NVIDIA、AMD ROCm 等)。

  • Linux 上使用 curl 安装的版本会自动检测并使用 CUDA。
  • Windows 需要 WSL2 + NVIDIA 驱动或直接在本地(自 0.1.33 起原生支持)。

6.2 查看模型是否在 GPU 上运行

ollama ps 会显示每个模型的 Processor 列,100% GPU 表示已完全加载到显存。

6.3 并发请求 & 资源限制

环境变量 作用
OLLAMA_NUM_PARALLEL 单模型最大并发请求数,默认随显存自动选择 1 或 4
OLLAMA_MAX_LOADED_MODELS 同时在内存/显存中保留的模型数量上限
OLLAMA_KEEP_ALIVE 模型空闲后保留时长,避免频繁加载/卸载

调优思路:显存足够时,可适当提升 OLLAMA_NUM_PARALLEL;若出现 OOM,需要降低 OLLAMA_MAX_LOADED_MODELSNUM_PARALLEL


7️⃣ REST API 与 SDK 示例

Ollama 提供标准的 HTTP 接口,适配所有语言。下面展示最常用的 generatechat 两个端点。

7.1 单轮生成(/api/generate

1
2
3
4
5
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "Why is the sky blue?",
"options": { "num_ctx": 4096 }
}'

num_ctx 用于扩大上下文窗口。

7.2 多轮对话(/api/chat

1
2
3
4
5
6
7
curl http://localhost:11434/api/chat -d '{
"model": "llama3.2",
"messages": [
{"role":"user","content":"What is the meaning of life?"},
{"role":"assistant","content":"42"}
]
}'

7.3 Python SDK(简要示例)

1
2
3
4
5
6
7
8
9
from ollama import Client

client = Client(host="http://localhost:11434")
resp = client.generate(
model="phi3",
prompt="写一段 Python 的冒泡排序代码",
options={"temperature": 0.7}
)
print(resp["response"])

官方 Python SDK 与 JS SDK 均已发布,可在 GitHub 上获取。


8️⃣ 常见问题 & 调试技巧

场景 解决方案
升级 macOS/Windows 自动检测更新;Linux 重新运行安装脚本 `curl …
日志查看 参考官方「故障排除」章节(ollama logs
代理环境 设置 HTTPS_PROXY(仅 HTTPS)并确保系统证书已安装
对外暴露 通过 OLLAMA_HOST=0.0.0.0 或使用 Nginx/Ngrok 反向代理
端口冲突 修改 OLLAMA_PORT 环境变量后重启即可
模型未加载 检查 ollama ps,确认 GPU/CPU 状态;若显存不足,考虑 OLLAMA_KEEP_ALIVE 或减小并发数

9️⃣ 社区 UI 与生态集成

项目 特色
Open WebUI 多用户 Web UI,支持 Ollama、OpenAI、Claude 等后端
CherryStudio 完整的知识库、绘画、翻译等“一站式” AI 助手
Page Assist 浏览器插件,随时在网页上调出本地模型
Ollama Python / JS SDK 直接在代码中调用,适配 FastAPI、Next.js 等框架

选用 UI 取决于使用场景:如果仅在终端玩模型,CLI 足矣;若需要多人协作或可视化对话,推荐 Open WebUI


🎉 小结

  • 一步到位curl … | shollama run llama3.2
  • 灵活配置:环境变量让你随意搬迁模型、暴露端口、调节并发。
  • GPU 与并发ollama ps 检查显卡加载,OLLAMA_NUM_PARALLEL / OLLAMA_MAX_LOADED_MODELS 控制资源。
  • 自定义:通过 Modelfile 定制系统提示、参数、LoRA 适配器。
  • API & SDK:REST 与官方 SDK 让模型轻松嵌入任意应用。

现在,你已经拥有从 安装配置模型管理API 调用 的完整知识链,快去本地跑通你的第一个大模型吧! 🚀


本文所有命令均已在最新的 Ollama 0.1.43(截至 2025‑11‑18)上测试通过,若有版本差异,请参考官方文档。