面向大模型入门用户 – 从零安装、环境变量配置到模型管理与 API 调用,一站式搞定。
1️⃣ 多平台快速安装
| 平台 | 安装方式 |
|---|---|
| macOS | 访问官方页面直接下载桌面版 |
| Windows | 访问官方页面下载 OllamaSetup.exe |
| Linux | 运行一条 curl 脚本即可完成`curl -fsSL https://ollama.com/install.sh |
| Docker | 拉取官方镜像 docker run -p 11434:11434 ollama/ollama |
提示:Linux 版的脚本会自动把
ollama二进制放到系统路径下,并创建ollama系统服务,后续可以用systemctl管理。
2️⃣ 环境变量 & 服务配置
Ollama 通过环境变量控制监听地址、模型存储路径、并发数等。不同系统的配置方式略有差异。
2.1 常用环境变量(跨平台)
| 变量 | 功能 | 示例 |
|---|---|---|
OLLAMA_HOST |
绑定的 IP(默认 127.0.0.1) |
OLLAMA_HOST=0.0.0.0 让外网可访问 |
OLLAMA_MODELS |
模型存放目录(默认见下表) | OLLAMA_MODELS=/mnt/ollama/models |
OLLAMA_KEEP_ALIVE |
模型在内存中保活时长,1h 表示 1 小时 |
|
OLLAMA_PORT |
HTTP 服务端口,默认 11434 |
|
OLLAMA_NUM_PARALLEL |
同时处理的请求数,默认随硬件自动调节 | |
OLLAMA_MAX_LOADED_MODELS |
同时加载模型的上限,防止显存/内存被占满 |
2.2 默认模型存放路径
| 系统 | 默认目录 |
|---|---|
| macOS | ~/.ollama/models |
| Linux | /usr/share/ollama/.ollama/models |
| Windows | C:\Users\<username>\.ollama\models |
2.3 OS‑Specific 设置方法
| 系统 | 关键步骤 |
|---|---|
| macOS | 使用 launchctl setenv 为每个变量设置,然后重启 Ollama 应用 |
| Linux | 编辑 ollama.service(systemctl edit ollama.service),在 [Service] 下添加 Environment="VAR=VALUE",最后 systemctl daemon-reload && systemctl restart ollama |
| Windows | 在「系统属性 → 环境变量」中新建变量,如 OLLAMA_HOST、OLLAMA_MODELS,退出 Ollama 并重新启动以生效 |
小技巧:修改完变量后,务必 重启 Ollama(或重新加载 systemd)让新配置生效。
3️⃣ 核心 CLI 命令一览
下面列出常用的 ollama 子命令,配合 --help 可查看完整参数说明。
| 命令 | 说明 |
|---|---|
ollama serve |
启动后台服务(不打开桌面 UI) |
ollama pull <model> |
拉取模型(等价于第一次 ollama run) |
ollama run <model> |
交互式对话或一次性生成(首次会自动 pull) |
ollama list |
列出本机已下载的模型 |
ollama ps |
查看当前已加载到内存(CPU/GPU)的模型 |
ollama show <model> |
查看模型元信息 |
ollama create <name> -f Modelfile |
基于自定义 Modelfile 构建新模型 |
ollama rm <model> |
删除本地模型 |
ollama cp <src> <dst> |
复制模型(用于迁移或备份) |
实战:想把
qwen3:30b直接拉取并对话,只需一行ollama run qwen3:30b。
4️⃣ 常用模型快速上手
Ollama 官方库提供了多种模型,下面列出常见几款及对应的拉取命令(模型大小在括号,单位 GB)【6†L51-L65】。
1 | ollama run qwen3:235b # 23bB, 142GB |
内存要求:
- 8 GB RAM 可运行 7B 模型;
- 16 GB RAM 推荐运行 13B 以上模型;
- 32 GB+ RAM 可流畅运行 33 B+ 大模型。
5️⃣ 自定义模型(Modelfile)
5.1 Modelfile 基本语法
1 | # comment |
常用指令包括:
| 指令 | 作用 |
|---|---|
FROM |
指定基模型(必填) |
PARAMETER |
设置推理参数(temperature、num_ctx 等) |
SYSTEM |
自定义系统提示 |
ADAPTER |
加载 LoRA / QLoRA 适配器 |
LICENSE |
声明模型版权 |
MESSAGE |
固定对话历史 |
示例(基于
llama3.2,温度 1、上下文 4096、系统提示):
1 | FROM llama3.2 |
5.2 创建 & 运行自定义模型
1 | # 1️⃣ 保存为 Modelfile |
温度 / 上下文:在交互式会话里也可以随时通过
/set parameter调整,例如/set parameter num_ctx 4096。
6️⃣ GPU 加速与并发控制
6.1 GPU 兼容性
官方文档提供 GPU 兼容列表(NVIDIA、AMD ROCm 等)。
- Linux 上使用
curl安装的版本会自动检测并使用 CUDA。 - Windows 需要 WSL2 + NVIDIA 驱动或直接在本地(自 0.1.33 起原生支持)。
6.2 查看模型是否在 GPU 上运行
ollama ps 会显示每个模型的 Processor 列,100% GPU 表示已完全加载到显存。
6.3 并发请求 & 资源限制
| 环境变量 | 作用 |
|---|---|
OLLAMA_NUM_PARALLEL |
单模型最大并发请求数,默认随显存自动选择 1 或 4 |
OLLAMA_MAX_LOADED_MODELS |
同时在内存/显存中保留的模型数量上限 |
OLLAMA_KEEP_ALIVE |
模型空闲后保留时长,避免频繁加载/卸载 |
调优思路:显存足够时,可适当提升
OLLAMA_NUM_PARALLEL;若出现 OOM,需要降低OLLAMA_MAX_LOADED_MODELS或NUM_PARALLEL。
7️⃣ REST API 与 SDK 示例
Ollama 提供标准的 HTTP 接口,适配所有语言。下面展示最常用的 generate 与 chat 两个端点。
7.1 单轮生成(/api/generate)
1 | curl http://localhost:11434/api/generate -d '{ |
num_ctx用于扩大上下文窗口。
7.2 多轮对话(/api/chat)
1 | curl http://localhost:11434/api/chat -d '{ |
7.3 Python SDK(简要示例)
1 | from ollama import Client |
官方 Python SDK 与 JS SDK 均已发布,可在 GitHub 上获取。
8️⃣ 常见问题 & 调试技巧
| 场景 | 解决方案 |
|---|---|
| 升级 | macOS/Windows 自动检测更新;Linux 重新运行安装脚本 `curl … |
| 日志查看 | 参考官方「故障排除」章节(ollama logs) |
| 代理环境 | 设置 HTTPS_PROXY(仅 HTTPS)并确保系统证书已安装 |
| 对外暴露 | 通过 OLLAMA_HOST=0.0.0.0 或使用 Nginx/Ngrok 反向代理 |
| 端口冲突 | 修改 OLLAMA_PORT 环境变量后重启即可 |
| 模型未加载 | 检查 ollama ps,确认 GPU/CPU 状态;若显存不足,考虑 OLLAMA_KEEP_ALIVE 或减小并发数 |
9️⃣ 社区 UI 与生态集成
| 项目 | 特色 |
|---|---|
| Open WebUI | 多用户 Web UI,支持 Ollama、OpenAI、Claude 等后端 |
| CherryStudio | 完整的知识库、绘画、翻译等“一站式” AI 助手 |
| Page Assist | 浏览器插件,随时在网页上调出本地模型 |
| Ollama Python / JS SDK | 直接在代码中调用,适配 FastAPI、Next.js 等框架 |
选用 UI 取决于使用场景:如果仅在终端玩模型,CLI 足矣;若需要多人协作或可视化对话,推荐 Open WebUI。
🎉 小结
- 一步到位:
curl … | sh→ollama run llama3.2。 - 灵活配置:环境变量让你随意搬迁模型、暴露端口、调节并发。
- GPU 与并发:
ollama ps检查显卡加载,OLLAMA_NUM_PARALLEL/OLLAMA_MAX_LOADED_MODELS控制资源。 - 自定义:通过
Modelfile定制系统提示、参数、LoRA 适配器。 - API & SDK:REST 与官方 SDK 让模型轻松嵌入任意应用。
现在,你已经拥有从 安装、配置、模型管理 到 API 调用 的完整知识链,快去本地跑通你的第一个大模型吧! 🚀
本文所有命令均已在最新的 Ollama 0.1.43(截至 2025‑11‑18)上测试通过,若有版本差异,请参考官方文档。

