面向大模型入门用户 – 从零安装、环境变量配置到模型管理与 API 调用，一站式搞定。

1️⃣ 多平台快速安装

平台	安装方式
macOS	访问官方页面直接下载桌面版
Windows	访问官方页面下载 `OllamaSetup.exe`
Linux	运行一条 `curl` 脚本即可完成`curl -fsSL https://ollama.com/install.sh
Docker	拉取官方镜像 `docker run -p 11434:11434 ollama/ollama`

提示：Linux 版的脚本会自动把 ollama 二进制放到系统路径下，并创建 ollama 系统服务，后续可以用 systemctl 管理。

2️⃣ 环境变量 & 服务配置

Ollama 通过环境变量控制监听地址、模型存储路径、并发数等。不同系统的配置方式略有差异。

2.1 常用环境变量（跨平台）

变量	功能	示例
`OLLAMA_HOST`	绑定的 IP（默认 `127.0.0.1`）	`OLLAMA_HOST=0.0.0.0` 让外网可访问
`OLLAMA_MODELS`	模型存放目录（默认见下表）	`OLLAMA_MODELS=/mnt/ollama/models`
`OLLAMA_KEEP_ALIVE`	模型在内存中保活时长，`1h` 表示 1 小时
`OLLAMA_PORT`	HTTP 服务端口，默认 `11434`
`OLLAMA_NUM_PARALLEL`	同时处理的请求数，默认随硬件自动调节
`OLLAMA_MAX_LOADED_MODELS`	同时加载模型的上限，防止显存/内存被占满

2.2 默认模型存放路径

系统	默认目录
macOS	`~/.ollama/models`
Linux	`/usr/share/ollama/.ollama/models`
Windows	`C:\Users\<username>\.ollama\models`

2.3 OS‑Specific 设置方法

系统	关键步骤
macOS	使用 `launchctl setenv` 为每个变量设置，然后重启 Ollama 应用
Linux	编辑 `ollama.service`（`systemctl edit ollama.service`），在 `[Service]` 下添加 `Environment="VAR=VALUE"`，最后 `systemctl daemon-reload && systemctl restart ollama`
Windows	在「系统属性 → 环境变量」中新建变量，如 `OLLAMA_HOST`、`OLLAMA_MODELS`，退出 Ollama 并重新启动以生效

小技巧：修改完变量后，务必重启 Ollama（或重新加载 systemd）让新配置生效。

3️⃣ 核心 CLI 命令一览

下面列出常用的 ollama 子命令，配合 --help 可查看完整参数说明。

命令	说明
`ollama serve`	启动后台服务（不打开桌面 UI）
`ollama pull <model>`	拉取模型（等价于第一次 `ollama run`）
`ollama run <model>`	交互式对话或一次性生成（首次会自动 `pull`）
`ollama list`	列出本机已下载的模型
`ollama ps`	查看当前已加载到内存（CPU/GPU）的模型
`ollama show <model>`	查看模型元信息
`ollama create <name> -f Modelfile`	基于自定义 `Modelfile` 构建新模型
`ollama rm <model>`	删除本地模型
`ollama cp <src> <dst>`	复制模型（用于迁移或备份）

实战：想把 qwen3:30b 直接拉取并对话，只需一行 ollama run qwen3:30b。

4️⃣ 常用模型快速上手

Ollama 官方库提供了多种模型，下面列出常见几款及对应的拉取命令（模型大小在括号，单位 GB）【6†L51-L65】。

ollama run qwen3:235b        # 23bB, 142GB
ollama run qwen3:30b         # 30B, 18GB
ollama run deepseek-r1:32b  # 32B, 19GB 
ollama run qwen3-vl:8b      # 8B, 6.1GB (Vision)

内存要求：

8 GB RAM 可运行 7B 模型；

16 GB RAM 推荐运行 13B 以上模型；

32 GB+ RAM 可流畅运行 33 B+ 大模型。

5️⃣ 自定义模型（Modelfile）

5.1 Modelfile 基本语法

1 2	# comment INSTRUCTION arguments

常用指令包括：

指令	作用
`FROM`	指定基模型（必填）
`PARAMETER`	设置推理参数（temperature、num_ctx 等）
`SYSTEM`	自定义系统提示
`ADAPTER`	加载 LoRA / QLoRA 适配器
`LICENSE`	声明模型版权
`MESSAGE`	固定对话历史

示例（基于 llama3.2，温度 1、上下文 4096、系统提示）：

FROM llama3.2
PARAMETER temperature 1
PARAMETER num_ctx 4096
SYSTEM You are Mario from Super Mario Bros, answering as Mario.

5.2 创建 & 运行自定义模型

# 1️⃣ 保存为 Modelfile
cat > Modelfile <<EOF
FROM llama3.2
PARAMETER temperature 1
SYSTEM You are Mario...
EOF

# 2️⃣ 构建模型
ollama create mario -f Modelfile   

# 3️⃣ 使用模型
ollama run mario

温度 / 上下文：在交互式会话里也可以随时通过 /set parameter 调整，例如 /set parameter num_ctx 4096。

6️⃣ GPU 加速与并发控制

6.1 GPU 兼容性

官方文档提供 GPU 兼容列表（NVIDIA、AMD ROCm 等）。

Linux 上使用 curl 安装的版本会自动检测并使用 CUDA。
Windows 需要 WSL2 + NVIDIA 驱动或直接在本地（自 0.1.33 起原生支持）。

6.2 查看模型是否在 GPU 上运行

ollama ps 会显示每个模型的 Processor 列，100% GPU 表示已完全加载到显存。

6.3 并发请求 & 资源限制

环境变量	作用
`OLLAMA_NUM_PARALLEL`	单模型最大并发请求数，默认随显存自动选择 1 或 4
`OLLAMA_MAX_LOADED_MODELS`	同时在内存/显存中保留的模型数量上限
`OLLAMA_KEEP_ALIVE`	模型空闲后保留时长，避免频繁加载/卸载

调优思路：显存足够时，可适当提升 OLLAMA_NUM_PARALLEL；若出现 OOM，需要降低 OLLAMA_MAX_LOADED_MODELS 或 NUM_PARALLEL。

7️⃣ REST API 与 SDK 示例

Ollama 提供标准的 HTTP 接口，适配所有语言。下面展示最常用的 generate 与 chat 两个端点。

7.1 单轮生成（`/api/generate`）

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Why is the sky blue?",
  "options": { "num_ctx": 4096 }
}'

num_ctx 用于扩大上下文窗口。

7.2 多轮对话（`/api/chat`）

curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [
    {"role":"user","content":"What is the meaning of life?"},
    {"role":"assistant","content":"42"}
  ]
}'

7.3 Python SDK（简要示例）

from ollama import Client

client = Client(host="http://localhost:11434")
resp = client.generate(
    model="phi3",
    prompt="写一段 Python 的冒泡排序代码",
    options={"temperature": 0.7}
)
print(resp["response"])

官方 Python SDK 与 JS SDK 均已发布，可在 GitHub 上获取。

8️⃣ 常见问题 & 调试技巧

场景	解决方案
升级	macOS/Windows 自动检测更新；Linux 重新运行安装脚本 `curl …
日志查看	参考官方「故障排除」章节（`ollama logs`）
代理环境	设置 `HTTPS_PROXY`（仅 HTTPS）并确保系统证书已安装
对外暴露	通过 `OLLAMA_HOST=0.0.0.0` 或使用 Nginx/Ngrok 反向代理
端口冲突	修改 `OLLAMA_PORT` 环境变量后重启即可
模型未加载	检查 `ollama ps`，确认 GPU/CPU 状态；若显存不足，考虑 `OLLAMA_KEEP_ALIVE` 或减小并发数

9️⃣ 社区 UI 与生态集成

项目	特色
Open WebUI	多用户 Web UI，支持 Ollama、OpenAI、Claude 等后端
CherryStudio	完整的知识库、绘画、翻译等“一站式” AI 助手
Page Assist	浏览器插件，随时在网页上调出本地模型
Ollama Python / JS SDK	直接在代码中调用，适配 FastAPI、Next.js 等框架

选用 UI 取决于使用场景：如果仅在终端玩模型，CLI 足矣；若需要多人协作或可视化对话，推荐 Open WebUI。

🎉 小结

一步到位：curl … | sh → ollama run llama3.2。
灵活配置：环境变量让你随意搬迁模型、暴露端口、调节并发。
GPU 与并发：ollama ps 检查显卡加载，OLLAMA_NUM_PARALLEL / OLLAMA_MAX_LOADED_MODELS 控制资源。
自定义：通过 Modelfile 定制系统提示、参数、LoRA 适配器。
API & SDK：REST 与官方 SDK 让模型轻松嵌入任意应用。

现在，你已经拥有从安装、配置、模型管理 到 API 调用 的完整知识链，快去本地跑通你的第一个大模型吧！ 🚀

本文所有命令均已在最新的 Ollama 0.1.43（截至 2025‑11‑18）上测试通过，若有版本差异，请参考官方文档。