极致优化:如何将 128k 上下文的显存占用从 87GB 降至 66GB?
在上一篇博文中,我们展示了双 3090/四 3090 环境下部署 Qwen3-30B 的基础性能。今天,通过引入 OLLAMA_KV_CACHE_TYPE=q8_0,我们将这项测试推向了新的巅峰:在不损失响应速度的前提下,显存占用降低了 **24%**。
极致优化:如何将 128k 上下文的显存占用从 87GB 降至 66GB?
在上一篇博文中,我们展示了双 3090/四 3090 环境下部署 Qwen3-30B 的基础性能。今天,通过引入 OLLAMA_KV_CACHE_TYPE=q8_0,我们将这项测试推向了新的巅峰:在不损失响应速度的前提下,显存占用降低了 **24%**。
追求极致:当 4 张 3090 遇上 Qwen3 MoE
在本地部署大模型的道路上,显存容量决定了“深度”,而架构设计决定了“速度”。最近我将本地环境升级到了 4x RTX 3090 (96GB VRAM),并部署了 Qwen3-Coder-30B-A3B-Instruct-Q8。以下是针对 32k 到 128k 上下文的真实性能压测报告。
在 AI 编程工具(如 Trae, Cursor)百家争鸣的时代,拥有一套高性能的本地大模型环境,不仅能保护代码私密性,更能通过极低的延迟提升“人机合一”的快感。本文记录了在 NVIDIA RTX 3090(多卡)环境下,利用 Ollama 部署 Qwen3-Coder-30B (MoE) 并进行深度调优的全过程。
在现代网络架构中,WireGuard 凭借其极简的代码实现和现代加密算法,已成为高效组建虚拟局域网(VLAN)的首选方案。但在实际部署中,无论是跨境链路的 MTU 陷阱,还是 K8s 容器环境下缺失 systemd 与 resolvconf 的限制,都让初学者颇为头疼。
在高性能 AI 推理场景中,单实例 ComfyUI 往往难以充分利用多显卡(如 RTX 3090)的算力,且面临长耗时任务导致服务假死的风险。本文将分享一套成熟的方案:通过 PM2 实现多实例守护与 HTTP 假死监测,并利用 Caddy 构建具备“最少连接优先”策略的负载均衡网关。
OpenClaw通过接入 Home Assistant (HA),化身为你的全能管家。
本文将带你快速完成 OpenClaw 与 Home Assistant 的联动配置。
OpenClaw 是一个强大的 AI 助手框架,支持多种消息平台(WhatsApp、Telegram、飞书等)、自定义工具和自动化工作流。本文将带你从零开始,在 10 分钟内完成 OpenClaw 的部署和配置。
面向大模型入门用户 – 从零安装、环境变量配置到模型管理与 API 调用,一站式搞定。
还在为AI生成的内容空洞、跑题或完全不符合预期而烦恼吗?你不是一个人。与AI有效沟通的关键,在于掌握“提问的艺术”。而Prompt框架,正是将这门艺术系统化、科学化的终极武器。
伴随MediaSync新版本的发布和逐步稳定,抽时间补充一下文档,方便需要的用户作为参考,内容相对简单,但是把核心配置的地方都讲到了.