為什麼在本地 MacBook Pro M4 Max（128GB）跑 gpt‑oss‑120B 會覺得慢？

Aiko August 6, 2025, 7:30am 2

最省成本運行 gpt‑oss‑120B 的實用路線圖

核心結論（先給方案）

雲端即用型推理服務：用代管平台的「多租戶 H100」後端，按量計費，省去自建硬體與運維，適合中小團隊先行試水與隨用隨付。此路徑常見入門價位為每百萬 token 極低單位數美金等級，且可直接走 OpenAI 相容 API，部署成本幾乎為零。
自建單卡 H100/MXFP4 路線：若有穩定高負載，採單張 80GB H100（或等級相當的企業 GPU）結合 MXFP4/4bit 量化與 vLLM，可在同等硬體上達到高吞吐，攤薄單次推理成本。官方明確指出 120B 針對單卡 80GB GPU 做了效率優化。
AMD 桌機或行動端「可用即省」：在 AMD Ryzen AI Max+ 395（128GB）或搭配 Radeon 桌機顯卡上，使用 GGML 轉換後的 MXFP4 權重，實測可達約 30 tok/s，硬體購置成本低於資料中心 GPU，自有場域推理的 TCO 具吸引力。

下面把每條路徑的成本槓桿、必要條件與最佳化技巧說清楚。

路徑一：雲端代管（最低上線成本，按用量付費）

適合情境：彈性工作負載、原型開發、不可預測流量、想免維運。
成本優勢來源：共享資料中心級 GPU（如 H100），用量小時不必買卡；平台常提供較低輸入/輸出單價與整合監控、彈性擴縮。第三方平台對 120B 的定價區間常見低於許多封閉商模，且能直接走 OpenAI 相容 SDK，省去改碼成本。
部署與效能要點：選支援 MXFP4 的後端與 vLLM/Transformers 路徑；優先挑選提供高輸出速度（tok/s）與低 TTFT 的供應商，避免等同價格卻低吞吐的節點。
額外參考：有 PaaS 供一鍵部署 120B 模板（vLLM + Open WebUI），對需要私有空間但不想自建的人也很省力。

路徑二：自建單卡 H100（或等級相當）+ 4bit 量化

適合情境：長時間高負載（持續 24/7 生產）、穩定流量、合規須自控基礎設施。
成本優勢來源：120B 的 MoE 設計在 80GB HBM 的單卡 H100 上即可高效運行，吞吐高可顯著攤薄單次推理成本；結合 vLLM 的張量並行與高效 KV 管理，可提升 tok/s 與併發數。
關鍵技巧
- 使用 MXFP4/4-bit 權重量化，顯著降低記憶體與帶寬需求，減少雲端租卡或機房電力成本。
- 控制上下文長度與思考深度（Reasoning Effort），在不影響結果的任務減少不必要的 CoT，能顯著降低 token 使用與時間成本。
- 工具使用（函式呼叫、瀏覽）應批次化或設限，避免 I/O 造成吞吐下降。
成本門檻：一次性硬體投入較高，但對長期穩定工作負載，總成本可低於公有雲長期按量付費。

路徑三：AMD 在地化硬體（性價比極高的本地推理）

適合情境：希望在本地或邊緣部署，兼顧隱私、可用速度與硬體成本；研發團隊、內網應用、MCP 型代理工作流。
成本優勢來源：AMD Ryzen AI Max+ 395（128GB）已實測能以 GGML 轉換的 MXFP4 權重載入 120B，權重約需 61GB 顯存，配合新版 Adrenalin 驅動可達約 30 tok/s，對許多內部應用已屬「可用速度」，且硬體購置成本低於資料中心級 GPU。
桌機加速選項：使用 Radeon 9070 XT 16GB 跑 20B 可獲得極佳 TTFT 與高吞吐；若主力仍是 120B，可在同平台以 20B 承接互動流量，用 120B 批量處理高難度任務，整體 TCO 更低。
生產注意：確保驅動版本達到或高於 Adrenalin 25.8.1 WHQL，並善用 LM Studio 等工具快速配置推理棧，降低整備成本。

通用降本十招（無論走哪條路徑都適用）

任務分流：互動用 20B，批量/高難度再上 120B，顯著降低平均成本與等待時間。
控制上下文長度：優先檢索/摘要後再喂 120B，可直接降低 token 費與計算時間。
調低推理努力度：非複雜任務關閉或縮短 CoT，減少生成長度與延遲。
量化優先：MXFP4 或同級 4-bit 路徑，兼顧品質與資源占用。
vLLM/高效推理框架：提升吞吐、降低 TTFT、改善併發，單位成本下降。
合理批次與流式：批處理相似請求提高 GPU 利用率；流式回傳改善體感延遲。
限制工具調用：把工具使用集中到少數關鍵步驟，避免 I/O 成本放大。
Prompt 工程：少樣例高信息密度提示，避免冗長系統詞與樣例。
緩存復用：對重複工作流引入提示/檔案摘要與中間結果快取，少跑重算。
挑對供應商：比較 tok/s、TTFT、每百萬 token 單價與隱性費率，兼顧可靠性與價格效率。

何時不建議勉強在筆電上跑 120B？

雖然高階筆電也能載入量化後的 120B，但記憶體頻寬與散熱限制會壓低吞吐，導致「能跑但不經濟」。若強調單位時間完成量與人力等待成本，建議改走代管雲端或單卡 H100/AMD 高記憶體平台，以更好的 tok/s 與 TTFT 換更低實際 TCO。

快速決策樹

流量小且不穩定 → 雲端代管（按量省心）
長期穩定高負載 → 自建單卡 H100 + MXFP4 + vLLM（攤薄成本）
重隱私/內網、預算敏感 → AMD Ryzen AI Max+ 395 或 Radeon 桌機，量化 + 本地推理（一次性投入換持續低成本）

準備把 120B 變成你的成本優勢與產品力？Tenten 可協助你選型、上雲/在地混合部署、vLLM 最佳化、RAG 與代理工作流整合，打造既省又穩的生產級體驗。和我們聊聊你的場景，立即預約顧問會議：https://tenten.co/contact。