為什麼在本地 MacBook Pro M4 Max(128GB)跑 gpt‑oss‑120B 會覺得慢?

最省成本運行 gpt‑oss‑120B 的實用路線圖

核心結論(先給方案)
  1. 雲端即用型推理服務:用代管平台的「多租戶 H100」後端,按量計費,省去自建硬體與運維,適合中小團隊先行試水與隨用隨付。此路徑常見入門價位為每百萬 token 極低單位數美金等級,且可直接走 OpenAI 相容 API,部署成本幾乎為零。
  2. 自建單卡 H100/MXFP4 路線:若有穩定高負載,採單張 80GB H100(或等級相當的企業 GPU)結合 MXFP4/4bit 量化與 vLLM,可在同等硬體上達到高吞吐,攤薄單次推理成本。官方明確指出 120B 針對單卡 80GB GPU 做了效率優化。
  3. AMD 桌機或行動端「可用即省」:在 AMD Ryzen AI Max+ 395(128GB)或搭配 Radeon 桌機顯卡上,使用 GGML 轉換後的 MXFP4 權重,實測可達約 30 tok/s,硬體購置成本低於資料中心 GPU,自有場域推理的 TCO 具吸引力。

下面把每條路徑的成本槓桿、必要條件與最佳化技巧說清楚。

路徑一:雲端代管(最低上線成本,按用量付費)

  • 適合情境:彈性工作負載、原型開發、不可預測流量、想免維運。
  • 成本優勢來源:共享資料中心級 GPU(如 H100),用量小時不必買卡;平台常提供較低輸入/輸出單價與整合監控、彈性擴縮。第三方平台對 120B 的定價區間常見低於許多封閉商模,且能直接走 OpenAI 相容 SDK,省去改碼成本。
  • 部署與效能要點:選支援 MXFP4 的後端與 vLLM/Transformers 路徑;優先挑選提供高輸出速度(tok/s)與低 TTFT 的供應商,避免等同價格卻低吞吐的節點。
  • 額外參考:有 PaaS 供一鍵部署 120B 模板(vLLM + Open WebUI),對需要私有空間但不想自建的人也很省力。

路徑二:自建單卡 H100(或等級相當)+ 4bit 量化

  • 適合情境:長時間高負載(持續 24/7 生產)、穩定流量、合規須自控基礎設施。
  • 成本優勢來源:120B 的 MoE 設計在 80GB HBM 的單卡 H100 上即可高效運行,吞吐高可顯著攤薄單次推理成本;結合 vLLM 的張量並行與高效 KV 管理,可提升 tok/s 與併發數。
  • 關鍵技巧
    • 使用 MXFP4/4-bit 權重量化,顯著降低記憶體與帶寬需求,減少雲端租卡或機房電力成本。
    • 控制上下文長度與思考深度(Reasoning Effort),在不影響結果的任務減少不必要的 CoT,能顯著降低 token 使用與時間成本。
    • 工具使用(函式呼叫、瀏覽)應批次化或設限,避免 I/O 造成吞吐下降。
  • 成本門檻:一次性硬體投入較高,但對長期穩定工作負載,總成本可低於公有雲長期按量付費。

路徑三:AMD 在地化硬體(性價比極高的本地推理)

  • 適合情境:希望在本地或邊緣部署,兼顧隱私、可用速度與硬體成本;研發團隊、內網應用、MCP 型代理工作流。
  • 成本優勢來源:AMD Ryzen AI Max+ 395(128GB)已實測能以 GGML 轉換的 MXFP4 權重載入 120B,權重約需 61GB 顯存,配合新版 Adrenalin 驅動可達約 30 tok/s,對許多內部應用已屬「可用速度」,且硬體購置成本低於資料中心級 GPU。
  • 桌機加速選項:使用 Radeon 9070 XT 16GB 跑 20B 可獲得極佳 TTFT 與高吞吐;若主力仍是 120B,可在同平台以 20B 承接互動流量,用 120B 批量處理高難度任務,整體 TCO 更低。
  • 生產注意:確保驅動版本達到或高於 Adrenalin 25.8.1 WHQL,並善用 LM Studio 等工具快速配置推理棧,降低整備成本。

通用降本十招(無論走哪條路徑都適用)

  1. 任務分流:互動用 20B,批量/高難度再上 120B,顯著降低平均成本與等待時間。
  2. 控制上下文長度:優先檢索/摘要後再喂 120B,可直接降低 token 費與計算時間。
  3. 調低推理努力度:非複雜任務關閉或縮短 CoT,減少生成長度與延遲。
  4. 量化優先:MXFP4 或同級 4-bit 路徑,兼顧品質與資源占用。
  5. vLLM/高效推理框架:提升吞吐、降低 TTFT、改善併發,單位成本下降。
  6. 合理批次與流式:批處理相似請求提高 GPU 利用率;流式回傳改善體感延遲。
  7. 限制工具調用:把工具使用集中到少數關鍵步驟,避免 I/O 成本放大。
  8. Prompt 工程:少樣例高信息密度提示,避免冗長系統詞與樣例。
  9. 緩存復用:對重複工作流引入提示/檔案摘要與中間結果快取,少跑重算。
  10. 挑對供應商:比較 tok/s、TTFT、每百萬 token 單價與隱性費率,兼顧可靠性與價格效率。

何時不建議勉強在筆電上跑 120B?

雖然高階筆電也能載入量化後的 120B,但記憶體頻寬與散熱限制會壓低吞吐,導致「能跑但不經濟」。若強調單位時間完成量與人力等待成本,建議改走代管雲端或單卡 H100/AMD 高記憶體平台,以更好的 tok/s 與 TTFT 換更低實際 TCO。

快速決策樹
  • 流量小且不穩定 → 雲端代管(按量省心)
  • 長期穩定高負載 → 自建單卡 H100 + MXFP4 + vLLM(攤薄成本)
  • 重隱私/內網、預算敏感 → AMD Ryzen AI Max+ 395 或 Radeon 桌機,量化 + 本地推理(一次性投入換持續低成本)

準備把 120B 變成你的成本優勢與產品力?Tenten 可協助你選型、上雲/在地混合部署、vLLM 最佳化、RAG 與代理工作流整合,打造既省又穩的生產級體驗。和我們聊聊你的場景,立即預約顧問會議:https://tenten.co/contact。