gpt‑oss‑120B 在不同硬體上的速度對比:AMD Ryzen AI Max+ 395、MacBook Pro M4 Max 128GB、NVIDIA H100

gpt‑oss‑120B 在不同硬體上的速度對比:AMD Ryzen AI Max+ 395、MacBook Pro M4 Max 128GB、NVIDIA H100

以下整理三種常見硬體在推論 gpt‑oss‑120B 的實務速度、配置與注意事項。數據來源以可驗證的官方/一手資料為主,若無公開數據則以合理說明標註為近似或未提供。

指標 AMD Ryzen AI Max+ 395 (128GB) MacBook Pro M4 Max (128GB) NVIDIA H100 80GB
推論可行性 官方實測可本地運行 gpt‑oss‑120B(量化 MXFP4,GGML 轉換) 可運行,但屬「能跑不快」級別,帶寬與內核優化限制吞吐 官方定位為單卡即可高效運行的最佳化目標
權重/精度 GGML 轉換之 MXFP4(約 61GB VRAM 需求) MXFP4/其他 4-bit 量化(依框架) 原生 MXFP4(MoE 層),單卡即可
驅動/框架 需 AMD Adrenalin 25.8.1 WHQL 或以上;建議 LM Studio/llama.cpp 路徑 建議 MLX/Metal 優化堆疊,或 vLLM/Transformers(Apple Silicon 支援度逐步提升) vLLM/Transformers,資料中心級 CUDA/加速庫
速度(tok/s) 官方宣稱最高約 30 tok/s 未有權威實測數據;多數實務回饋顯示顯著低於桌機/資料中心 GPU 未有單一官方固定值;實務上通常顯著高於消費級平台,且可達高併發高吞吐
首字延遲(TTFT) 未明確公布;實測體感可用 未明確公布;常受帶寬與量化配置影響 未明確公布;資料中心堆疊通常具備較低 TTFT
上下文長度 128K 支援;可用於 MCP 代理工作流 128K 支援;長上下文會進一步拉長延遲 128K 支援;在高頻寬 HBM 上較能承受長上下文
適用情境 本地/邊緣、重隱私、單機研發與內網代理,強調「可用速度」與低 TCO 本地開發與小規模實驗;對即時性要求高時不建議使用 120B 生產級與高併發、長鏈推理、批量任務,追求最佳 tok/s 與 TCO
重要備註 需升級至 Adrenalin 25.8.1 WHQL 解鎖 120B 載入;Ryzen AI Max+ 大記憶體也利於 MCP 帶寬/熱設計限制使吞吐不易提升;建議以 20B 承接互動、120B 批量 120B 設計即針對單卡 H100 高效運行,原生 MXFP4 與 vLLM 能顯著提升吞吐
註解與依據
  • AMD 官方部落格明確表示,Ryzen AI Max+ 395(128GB)可在 Windows 以 GGML 轉換的 MXFP4 權重運行 gpt‑oss‑120B,權重約需 61GB,並需 Adrenalin 25.8.1 WHQL 或以上驅動;速度最高約 30 tokens/s,且可支持 MCP 工作流。
  • OpenAI 模型卡與說明指出 gpt‑oss‑120B 為原生 MXFP4 的 MoE 設計,能在單張 H100(80GB)上高效運行;20B 對應 16GB 記憶體級別的本地/邊緣場景。
  • 綜合社群與實務觀察,本地 Apple Silicon 可載入量化後之 120B,但受限於記憶體頻寬與軟體堆疊最佳化,體感吞吐顯著低於資料中心級 GPU;官方未提供 M4 Max 針對 120B 的權威 tok/s 數據,故以「可運行但較慢」描述,並建議以 20B 互動、120B 批量的分層策略作為更經濟選擇。
  • Hugging Face 與 ROCm/AMD 的「Day 0」指南亦強調 120B 可於單卡 H100、而 20B 可於 16GB 記憶體級環境順暢運行,呼應上列定位。

想把 120B 跑到更快?三個實用方向

  • 量化與上下文控制:優先使用 MXFP4/4‑bit,縮短 prompt 與限制 CoT 長度,直接降低計算量。
  • 高效推理框架:在 H100 採用 vLLM/Transformers,善用並行與 KV 快取,提升 tok/s 與併發。
  • 任務分流:互動走 20B,本地開發/邊緣需求友善;高難度或批量由 120B 在 H100/雲端節點承接,最佳化 TCO。

準備把大模型落地到你的產品與工作流?Tenten 專精 AI 產品化、私有化部署、長上下文檢索與代理式工作流實作,協助你在不同硬體上榨出最佳性價比。想評估你的場景與算力配置,歡迎和我們聊聊,立即預約顧問會議:https://tenten.co/contact。