為什麼在本地 MacBook Pro M4 Max(128GB)跑 gpt‑oss‑120B 會覺得慢?

為什麼在本地 MacBook Pro M4 Max(128GB)跑 gpt‑oss‑120B 會覺得慢?

1) 模型規模與記憶體帶寬的基本物理限制

gpt‑oss‑120B 是大型 MoE(Mixture‑of‑Experts)開權重模型,設計重點是在「單張約 80GB 記憶體的 GPU 上可高效推理」,而非手機或筆電級裝置的極致速度。官方指出 120B 可在單張 80GB GPU 上有效率運行,20B 則面向 16GB 記憶體的邊緣裝置與 Apple Silicon,本質上 120B 的最佳體驗仍偏向伺服器級資源環境。雖然你的 M4 Max 擁有 128GB 統一記憶體,但其記憶體頻寬與 H100/A100 這類資料中心 GPU 相比仍屬不同等級,導致權重讀取與張量計算的吞吐受限,體感速度自然落差明顯。

2) Apple Silicon 本地推理的優勢與現實差距

OpenAI 與多方報導都強調 gpt‑oss‑20B 很適合 Apple Silicon 本地推理,對 16GB 以上的統一記憶體表現佳;而 120B 雖「可在多數桌面/筆電上運行」,但更偏向具備高顯存或更大帶寬的環境以獲得理想速度。媒體與新聞聚合也提到 120B 建議至少 60GB 統一記憶體或顯存,20B 才是「完美搭檔」型的 Apple Silicon 選擇,因此在 M4 Max 上 120B 能跑但不一定快。

3) 工具使用與代理工作流的額外開銷

gpt‑oss 系列針對代理式工作流優化,包括工具使用(例如網頁搜尋、Python 執行、API 呼叫)與可調整思考深度等能力。這些「強推理/用工具」的特性能提升品質,但同時會產生額外延遲,如外部工具呼叫、序列更長的思考步驟(CoT)與更重的控制流,尤其在本地環境,這些往往會被感知為「慢」。

4) MoE 啟用專家與啟用參數造成的運算負擔

即便是 MoE,gpt‑oss‑120B 在每個 token 仍會啟用數十億參數進行計算。與更小的 20B 相比,120B 的張量維度更大、權重分片更多,即使量化後仍會帶來更重的記憶體傳輸與計算開銷。OpenAI 強調 20B 與 120B 都能靠可調推理力度與工具使用拿到高品質輸出,但在硬體較弱時,20B 更容易保持流暢互動與低延遲。

5) 社群與實務觀察:本地端跑大模型常見「速度落差」

社群經驗分享顯示,許多使用者在筆電或桌面本地跑大模型時,即使能夠載入,也會因為量化層數、序列長度、工具流程與 I/O 耗時而感到「沒有雲端快」。有用戶在 Hacker News 表示能在 MacBook Air M3 本地跑 20B,覺得驚艷;也有人反饋 20B 在某些推理題目表現不佳,反映本地環境與實際使用情境差異大、速度與品質會波動,這種分歧在更大的 120B 上更明顯。

6) 你的工作負載可能觸發長鏈推理與長上下文

gpt‑oss‑120B 支援長上下文與完整 CoT。當你要求更嚴謹的推理、提供長文檔、或讓模型做多步工具調用時,生成速度會被拉長;TTFT(首字延遲)與 tok/s 都會受影響。官方亦提到 gpt‑oss 支援「調整推理努力程度」以換取更低延遲輸出,因此若當前設定偏向深度思考,速度勢必更慢。

7) 與雲端的硬體與軟體堆疊差距

雲端供應商通常採用高頻寬 HBM、NVLink、專用 kernel、圖編譯器與高效運行時(例如 FP8/MXFP4 等路徑)來壓縮延遲與提升吞吐。即便 Apple 的 MLX、Metal 逐步優化,本地堆疊要達到資料中心等級仍有落差。9to5Mac 的報導也重申:20B 專為「高階消費級 GPU 與 Apple Silicon」調校,120B 才是更大規模但更吃硬體的選項。

你可以怎麼提速?實用建議
  1. 改用 gpt‑oss‑20B 處理互動或即時需求,再把最難的任務交給 120B 批量處理
    20B 明確面向 16GB+ 本地與 Apple Silicon,互動延遲更友善;120B 適合非即時批次、高品質輸出場景。

  2. 降低思考深度與工具調用頻率
    關閉或降低長 CoT、減少外部工具(特別是網路 I/O)的使用次數,可顯著改善體感延遲。

  3. 使用更積極的量化與更小的上下文長度
    對 120B 採用更低 bit 量化、縮短 prompt/上下文,有助於降低記憶體帶寬壓力與提升 tok/s。這在 Apple Silicon 上常見且有效的權衡(社群經驗也呼應本地端常靠量化來換取速度)。

  4. 任務分層:摘要先行、切塊處理
    先用較小模型做摘要/檢索,將精煉後的上下文再交給 120B 深度推理,減少無謂 token 計算。

  5. 盡量使用原生優化的本地框架與運行時
    在 Apple 生態中採用對 Metal/Apple Silicon 友善的堆疊,並確保你使用的是針對該模型版本的最佳 kernel 與張量格式。這能縮短載入時間與改善 tok/s(媒體亦指明 20B 在 Apple Silicon 上表現最佳,顯示軟硬體協同的重要性)。

  6. 若可接受,改為遠端推理或混合部署
    對延遲敏感工作流,考慮把 120B 放到具備 80GB+ 高頻寬 GPU 的遠端節點,或以 20B 本地 + 120B 雲端的混合方式取得品質與速度平衡。

總結

你之所以覺得本地 M4 Max 128GB 跑 gpt‑oss‑120B 慢,核心原因在於模型規模與硬體帶寬的不匹配、MoE 與深度推理帶來的計算與 I/O 負擔、以及代理/工具鏈路本身的延遲疊加。若你追求更流暢的本地互動體驗,建議優先嘗試 gpt‑oss‑20B,並透過量化、縮短上下文、降低思考深度與工具調用頻率來提速;將 120B 用於非即時的高品質任務,或改在具備資料中心級 GPU 的環境部署以獲得明顯的速度提升。

準備把本地與雲端推理做成真正可落地的工作流?Tenten 專精於 AI 模型選型、私有化部署、長文脈檢索、代理工作流與成本優化。我們可以協助你把 gpt‑oss‑20B/120B、工具調用與資料管線整合進產品,打造既快又穩的體驗。現在就與 Tenten 團隊聊聊你的場景,立即預約顧問會議

最省成本運行 gpt‑oss‑120B 的實用路線圖

核心結論(先給方案)
  1. 雲端即用型推理服務:用代管平台的「多租戶 H100」後端,按量計費,省去自建硬體與運維,適合中小團隊先行試水與隨用隨付。此路徑常見入門價位為每百萬 token 極低單位數美金等級,且可直接走 OpenAI 相容 API,部署成本幾乎為零。
  2. 自建單卡 H100/MXFP4 路線:若有穩定高負載,採單張 80GB H100(或等級相當的企業 GPU)結合 MXFP4/4bit 量化與 vLLM,可在同等硬體上達到高吞吐,攤薄單次推理成本。官方明確指出 120B 針對單卡 80GB GPU 做了效率優化。
  3. AMD 桌機或行動端「可用即省」:在 AMD Ryzen AI Max+ 395(128GB)或搭配 Radeon 桌機顯卡上,使用 GGML 轉換後的 MXFP4 權重,實測可達約 30 tok/s,硬體購置成本低於資料中心 GPU,自有場域推理的 TCO 具吸引力。

下面把每條路徑的成本槓桿、必要條件與最佳化技巧說清楚。

路徑一:雲端代管(最低上線成本,按用量付費)

  • 適合情境:彈性工作負載、原型開發、不可預測流量、想免維運。
  • 成本優勢來源:共享資料中心級 GPU(如 H100),用量小時不必買卡;平台常提供較低輸入/輸出單價與整合監控、彈性擴縮。第三方平台對 120B 的定價區間常見低於許多封閉商模,且能直接走 OpenAI 相容 SDK,省去改碼成本。
  • 部署與效能要點:選支援 MXFP4 的後端與 vLLM/Transformers 路徑;優先挑選提供高輸出速度(tok/s)與低 TTFT 的供應商,避免等同價格卻低吞吐的節點。
  • 額外參考:有 PaaS 供一鍵部署 120B 模板(vLLM + Open WebUI),對需要私有空間但不想自建的人也很省力。

路徑二:自建單卡 H100(或等級相當)+ 4bit 量化

  • 適合情境:長時間高負載(持續 24/7 生產)、穩定流量、合規須自控基礎設施。
  • 成本優勢來源:120B 的 MoE 設計在 80GB HBM 的單卡 H100 上即可高效運行,吞吐高可顯著攤薄單次推理成本;結合 vLLM 的張量並行與高效 KV 管理,可提升 tok/s 與併發數。
  • 關鍵技巧
    • 使用 MXFP4/4-bit 權重量化,顯著降低記憶體與帶寬需求,減少雲端租卡或機房電力成本。
    • 控制上下文長度與思考深度(Reasoning Effort),在不影響結果的任務減少不必要的 CoT,能顯著降低 token 使用與時間成本。
    • 工具使用(函式呼叫、瀏覽)應批次化或設限,避免 I/O 造成吞吐下降。
  • 成本門檻:一次性硬體投入較高,但對長期穩定工作負載,總成本可低於公有雲長期按量付費。

路徑三:AMD 在地化硬體(性價比極高的本地推理)

  • 適合情境:希望在本地或邊緣部署,兼顧隱私、可用速度與硬體成本;研發團隊、內網應用、MCP 型代理工作流。
  • 成本優勢來源:AMD Ryzen AI Max+ 395(128GB)已實測能以 GGML 轉換的 MXFP4 權重載入 120B,權重約需 61GB 顯存,配合新版 Adrenalin 驅動可達約 30 tok/s,對許多內部應用已屬「可用速度」,且硬體購置成本低於資料中心級 GPU。
  • 桌機加速選項:使用 Radeon 9070 XT 16GB 跑 20B 可獲得極佳 TTFT 與高吞吐;若主力仍是 120B,可在同平台以 20B 承接互動流量,用 120B 批量處理高難度任務,整體 TCO 更低。
  • 生產注意:確保驅動版本達到或高於 Adrenalin 25.8.1 WHQL,並善用 LM Studio 等工具快速配置推理棧,降低整備成本。

通用降本十招(無論走哪條路徑都適用)

  1. 任務分流:互動用 20B,批量/高難度再上 120B,顯著降低平均成本與等待時間。
  2. 控制上下文長度:優先檢索/摘要後再喂 120B,可直接降低 token 費與計算時間。
  3. 調低推理努力度:非複雜任務關閉或縮短 CoT,減少生成長度與延遲。
  4. 量化優先:MXFP4 或同級 4-bit 路徑,兼顧品質與資源占用。
  5. vLLM/高效推理框架:提升吞吐、降低 TTFT、改善併發,單位成本下降。
  6. 合理批次與流式:批處理相似請求提高 GPU 利用率;流式回傳改善體感延遲。
  7. 限制工具調用:把工具使用集中到少數關鍵步驟,避免 I/O 成本放大。
  8. Prompt 工程:少樣例高信息密度提示,避免冗長系統詞與樣例。
  9. 緩存復用:對重複工作流引入提示/檔案摘要與中間結果快取,少跑重算。
  10. 挑對供應商:比較 tok/s、TTFT、每百萬 token 單價與隱性費率,兼顧可靠性與價格效率。

何時不建議勉強在筆電上跑 120B?

雖然高階筆電也能載入量化後的 120B,但記憶體頻寬與散熱限制會壓低吞吐,導致「能跑但不經濟」。若強調單位時間完成量與人力等待成本,建議改走代管雲端或單卡 H100/AMD 高記憶體平台,以更好的 tok/s 與 TTFT 換更低實際 TCO。

快速決策樹
  • 流量小且不穩定 → 雲端代管(按量省心)
  • 長期穩定高負載 → 自建單卡 H100 + MXFP4 + vLLM(攤薄成本)
  • 重隱私/內網、預算敏感 → AMD Ryzen AI Max+ 395 或 Radeon 桌機,量化 + 本地推理(一次性投入換持續低成本)

準備把 120B 變成你的成本優勢與產品力?Tenten 可協助你選型、上雲/在地混合部署、vLLM 最佳化、RAG 與代理工作流整合,打造既省又穩的生產級體驗。和我們聊聊你的場景,立即預約顧問會議:https://tenten.co/contact。