為什麼在本地 MacBook Pro M4 Max(128GB)跑 gpt‑oss‑120B 會覺得慢?
1) 模型規模與記憶體帶寬的基本物理限制
gpt‑oss‑120B 是大型 MoE(Mixture‑of‑Experts)開權重模型,設計重點是在「單張約 80GB 記憶體的 GPU 上可高效推理」,而非手機或筆電級裝置的極致速度。官方指出 120B 可在單張 80GB GPU 上有效率運行,20B 則面向 16GB 記憶體的邊緣裝置與 Apple Silicon,本質上 120B 的最佳體驗仍偏向伺服器級資源環境。雖然你的 M4 Max 擁有 128GB 統一記憶體,但其記憶體頻寬與 H100/A100 這類資料中心 GPU 相比仍屬不同等級,導致權重讀取與張量計算的吞吐受限,體感速度自然落差明顯。
2) Apple Silicon 本地推理的優勢與現實差距
OpenAI 與多方報導都強調 gpt‑oss‑20B 很適合 Apple Silicon 本地推理,對 16GB 以上的統一記憶體表現佳;而 120B 雖「可在多數桌面/筆電上運行」,但更偏向具備高顯存或更大帶寬的環境以獲得理想速度。媒體與新聞聚合也提到 120B 建議至少 60GB 統一記憶體或顯存,20B 才是「完美搭檔」型的 Apple Silicon 選擇,因此在 M4 Max 上 120B 能跑但不一定快。
3) 工具使用與代理工作流的額外開銷
gpt‑oss 系列針對代理式工作流優化,包括工具使用(例如網頁搜尋、Python 執行、API 呼叫)與可調整思考深度等能力。這些「強推理/用工具」的特性能提升品質,但同時會產生額外延遲,如外部工具呼叫、序列更長的思考步驟(CoT)與更重的控制流,尤其在本地環境,這些往往會被感知為「慢」。
4) MoE 啟用專家與啟用參數造成的運算負擔
即便是 MoE,gpt‑oss‑120B 在每個 token 仍會啟用數十億參數進行計算。與更小的 20B 相比,120B 的張量維度更大、權重分片更多,即使量化後仍會帶來更重的記憶體傳輸與計算開銷。OpenAI 強調 20B 與 120B 都能靠可調推理力度與工具使用拿到高品質輸出,但在硬體較弱時,20B 更容易保持流暢互動與低延遲。
5) 社群與實務觀察:本地端跑大模型常見「速度落差」
社群經驗分享顯示,許多使用者在筆電或桌面本地跑大模型時,即使能夠載入,也會因為量化層數、序列長度、工具流程與 I/O 耗時而感到「沒有雲端快」。有用戶在 Hacker News 表示能在 MacBook Air M3 本地跑 20B,覺得驚艷;也有人反饋 20B 在某些推理題目表現不佳,反映本地環境與實際使用情境差異大、速度與品質會波動,這種分歧在更大的 120B 上更明顯。
6) 你的工作負載可能觸發長鏈推理與長上下文
gpt‑oss‑120B 支援長上下文與完整 CoT。當你要求更嚴謹的推理、提供長文檔、或讓模型做多步工具調用時,生成速度會被拉長;TTFT(首字延遲)與 tok/s 都會受影響。官方亦提到 gpt‑oss 支援「調整推理努力程度」以換取更低延遲輸出,因此若當前設定偏向深度思考,速度勢必更慢。
7) 與雲端的硬體與軟體堆疊差距
雲端供應商通常採用高頻寬 HBM、NVLink、專用 kernel、圖編譯器與高效運行時(例如 FP8/MXFP4 等路徑)來壓縮延遲與提升吞吐。即便 Apple 的 MLX、Metal 逐步優化,本地堆疊要達到資料中心等級仍有落差。9to5Mac 的報導也重申:20B 專為「高階消費級 GPU 與 Apple Silicon」調校,120B 才是更大規模但更吃硬體的選項。
你可以怎麼提速?實用建議
-
改用 gpt‑oss‑20B 處理互動或即時需求,再把最難的任務交給 120B 批量處理
20B 明確面向 16GB+ 本地與 Apple Silicon,互動延遲更友善;120B 適合非即時批次、高品質輸出場景。 -
降低思考深度與工具調用頻率
關閉或降低長 CoT、減少外部工具(特別是網路 I/O)的使用次數,可顯著改善體感延遲。 -
使用更積極的量化與更小的上下文長度
對 120B 採用更低 bit 量化、縮短 prompt/上下文,有助於降低記憶體帶寬壓力與提升 tok/s。這在 Apple Silicon 上常見且有效的權衡(社群經驗也呼應本地端常靠量化來換取速度)。 -
任務分層:摘要先行、切塊處理
先用較小模型做摘要/檢索,將精煉後的上下文再交給 120B 深度推理,減少無謂 token 計算。 -
盡量使用原生優化的本地框架與運行時
在 Apple 生態中採用對 Metal/Apple Silicon 友善的堆疊,並確保你使用的是針對該模型版本的最佳 kernel 與張量格式。這能縮短載入時間與改善 tok/s(媒體亦指明 20B 在 Apple Silicon 上表現最佳,顯示軟硬體協同的重要性)。 -
若可接受,改為遠端推理或混合部署
對延遲敏感工作流,考慮把 120B 放到具備 80GB+ 高頻寬 GPU 的遠端節點,或以 20B 本地 + 120B 雲端的混合方式取得品質與速度平衡。
總結
你之所以覺得本地 M4 Max 128GB 跑 gpt‑oss‑120B 慢,核心原因在於模型規模與硬體帶寬的不匹配、MoE 與深度推理帶來的計算與 I/O 負擔、以及代理/工具鏈路本身的延遲疊加。若你追求更流暢的本地互動體驗,建議優先嘗試 gpt‑oss‑20B,並透過量化、縮短上下文、降低思考深度與工具調用頻率來提速;將 120B 用於非即時的高品質任務,或改在具備資料中心級 GPU 的環境部署以獲得明顯的速度提升。
準備把本地與雲端推理做成真正可落地的工作流?Tenten 專精於 AI 模型選型、私有化部署、長文脈檢索、代理工作流與成本優化。我們可以協助你把 gpt‑oss‑20B/120B、工具調用與資料管線整合進產品,打造既快又穩的體驗。現在就與 Tenten 團隊聊聊你的場景,立即預約顧問會議。