在 AI 编程工具(如 Trae, Cursor)百家争鸣的时代,拥有一套高性能的本地大模型环境,不仅能保护代码私密性,更能通过极低的延迟提升“人机合一”的快感。本文记录了在 NVIDIA RTX 3090(多卡)环境下,利用 Ollama 部署 Qwen3-Coder-30B (MoE) 并进行深度调优的全过程。
1. 硬件与模型选型:为什么是 Qwen3-30B?
对于有充足显存的配置,Qwen3-Coder-30B 是目前相对较优的“版本答案”:
- MoE 架构:总参数 30B,推理时仅激活约 3.3B。这意味着它拥有大模型的“深度”,却具备小模型的“速度”。
- 长上下文支持:原生支持 128k 上下文,适合 Repo-level 的代码理解。
2. 核心部署配置
2.1 环境变量调优 (Server-Side)
为了压榨并发性能,我们在启动 Ollama 前设置了如下关键参数:
1 | # 启用 Flash Attention 减少长文本压力 |
2.2 自定义 Modelfile
我们创建了 my-code-qwen3 模型,固定了黄金生产力参数:
1 | FROM qwen3-coder:30b-instruct-q8_0 |
3. 性能压测实录 (Benchmark)
在并发数 $N=4$ 的高频压力测试下,不同上下文长度的表现如下:
| 配置 (Context) | 首字延迟 (TTFT) | 总吞吐量 (Total TPS) | 人均生成速度 | 结论 |
|---|---|---|---|---|
| 32k | 0.39s | 121.22 tokens/s | 30.3 tokens/s | 极速响应,无感延迟 |
| 64k | 0.40s | 124.24 tokens/s | 31.0 tokens/s | 黄金平衡点 |
| 128k | 0.44s | 112.13 tokens/s | 28.0 tokens/s | 略有衰减但依然流畅 |
数据解读:
- 0.4s 的 TTFT:意味着在你按下快捷键的瞬间,代码已经开始流式输出。
- 120+ TPS 的总输出:证明了 MoE 架构在 3090 上的巨大带宽优势,足以支撑多人或多任务同时运行。
- 64k 甜点位:测试显示 64k 下性能不降反升,说明该尺寸最契合目前的算力调度。
4. 总结
双 3090 配合 Qwen3-Coder-30B MoE 模型,为单人开发者提供了一个“低延迟、高智力、大容量”的完美私有大脑。
- 如果你追求极致速度:32k 上下文 + Q4 量化。
- 如果你追求生产力平衡:64k 上下文 + Q8 量化(推荐)。
- 如果你需要处理庞大工程:128k 上下文 + KV Cache 量化。
写在最后:本地 AI 的魅力在于,它不只是一件工具,更是你算力的延伸。如果你需要大量的token消耗,除了大厂的Coding Plan,本地也许是个不错的选择。

