gpt‑oss‑120B 在不同硬體上的速度對比:AMD Ryzen AI Max+ 395、MacBook Pro M4 Max 128GB、NVIDIA H100
以下整理三種常見硬體在推論 gpt‑oss‑120B 的實務速度、配置與注意事項。數據來源以可驗證的官方/一手資料為主,若無公開數據則以合理說明標註為近似或未提供。
指標 | AMD Ryzen AI Max+ 395 (128GB) | MacBook Pro M4 Max (128GB) | NVIDIA H100 80GB |
---|---|---|---|
推論可行性 | 官方實測可本地運行 gpt‑oss‑120B(量化 MXFP4,GGML 轉換) | 可運行,但屬「能跑不快」級別,帶寬與內核優化限制吞吐 | 官方定位為單卡即可高效運行的最佳化目標 |
權重/精度 | GGML 轉換之 MXFP4(約 61GB VRAM 需求) | MXFP4/其他 4-bit 量化(依框架) | 原生 MXFP4(MoE 層),單卡即可 |
驅動/框架 | 需 AMD Adrenalin 25.8.1 WHQL 或以上;建議 LM Studio/llama.cpp 路徑 | 建議 MLX/Metal 優化堆疊,或 vLLM/Transformers(Apple Silicon 支援度逐步提升) | vLLM/Transformers,資料中心級 CUDA/加速庫 |
速度(tok/s) | 官方宣稱最高約 30 tok/s | 未有權威實測數據;多數實務回饋顯示顯著低於桌機/資料中心 GPU | 未有單一官方固定值;實務上通常顯著高於消費級平台,且可達高併發高吞吐 |
首字延遲(TTFT) | 未明確公布;實測體感可用 | 未明確公布;常受帶寬與量化配置影響 | 未明確公布;資料中心堆疊通常具備較低 TTFT |
上下文長度 | 128K 支援;可用於 MCP 代理工作流 | 128K 支援;長上下文會進一步拉長延遲 | 128K 支援;在高頻寬 HBM 上較能承受長上下文 |
適用情境 | 本地/邊緣、重隱私、單機研發與內網代理,強調「可用速度」與低 TCO | 本地開發與小規模實驗;對即時性要求高時不建議使用 120B | 生產級與高併發、長鏈推理、批量任務,追求最佳 tok/s 與 TCO |
重要備註 | 需升級至 Adrenalin 25.8.1 WHQL 解鎖 120B 載入;Ryzen AI Max+ 大記憶體也利於 MCP | 帶寬/熱設計限制使吞吐不易提升;建議以 20B 承接互動、120B 批量 | 120B 設計即針對單卡 H100 高效運行,原生 MXFP4 與 vLLM 能顯著提升吞吐 |
註解與依據
- AMD 官方部落格明確表示,Ryzen AI Max+ 395(128GB)可在 Windows 以 GGML 轉換的 MXFP4 權重運行 gpt‑oss‑120B,權重約需 61GB,並需 Adrenalin 25.8.1 WHQL 或以上驅動;速度最高約 30 tokens/s,且可支持 MCP 工作流。
- OpenAI 模型卡與說明指出 gpt‑oss‑120B 為原生 MXFP4 的 MoE 設計,能在單張 H100(80GB)上高效運行;20B 對應 16GB 記憶體級別的本地/邊緣場景。
- 綜合社群與實務觀察,本地 Apple Silicon 可載入量化後之 120B,但受限於記憶體頻寬與軟體堆疊最佳化,體感吞吐顯著低於資料中心級 GPU;官方未提供 M4 Max 針對 120B 的權威 tok/s 數據,故以「可運行但較慢」描述,並建議以 20B 互動、120B 批量的分層策略作為更經濟選擇。
- Hugging Face 與 ROCm/AMD 的「Day 0」指南亦強調 120B 可於單卡 H100、而 20B 可於 16GB 記憶體級環境順暢運行,呼應上列定位。
想把 120B 跑到更快?三個實用方向
- 量化與上下文控制:優先使用 MXFP4/4‑bit,縮短 prompt 與限制 CoT 長度,直接降低計算量。
- 高效推理框架:在 H100 採用 vLLM/Transformers,善用並行與 KV 快取,提升 tok/s 與併發。
- 任務分流:互動走 20B,本地開發/邊緣需求友善;高難度或批量由 120B 在 H100/雲端節點承接,最佳化 TCO。
準備把大模型落地到你的產品與工作流?Tenten 專精 AI 產品化、私有化部署、長上下文檢索與代理式工作流實作,協助你在不同硬體上榨出最佳性價比。想評估你的場景與算力配置,歡迎和我們聊聊,立即預約顧問會議:https://tenten.co/contact。