gpt‑oss‑120B 在不同硬體上的速度對比：AMD Ryzen AI Max+ 395、MacBook Pro M4 Max 128GB、NVIDIA H100

Aiko · August 6, 2025, 7:31am

gpt‑oss‑120B 在不同硬體上的速度對比：AMD Ryzen AI Max+ 395、MacBook Pro M4 Max 128GB、NVIDIA H100

以下整理三種常見硬體在推論 gpt‑oss‑120B 的實務速度、配置與注意事項。數據來源以可驗證的官方/一手資料為主，若無公開數據則以合理說明標註為近似或未提供。

指標	AMD Ryzen AI Max+ 395 (128GB)	MacBook Pro M4 Max (128GB)	NVIDIA H100 80GB
推論可行性	官方實測可本地運行 gpt‑oss‑120B（量化 MXFP4，GGML 轉換）	可運行，但屬「能跑不快」級別，帶寬與內核優化限制吞吐	官方定位為單卡即可高效運行的最佳化目標
權重/精度	GGML 轉換之 MXFP4（約 61GB VRAM 需求）	MXFP4/其他 4-bit 量化（依框架）	原生 MXFP4（MoE 層），單卡即可
驅動/框架	需 AMD Adrenalin 25.8.1 WHQL 或以上；建議 LM Studio/llama.cpp 路徑	建議 MLX/Metal 優化堆疊，或 vLLM/Transformers（Apple Silicon 支援度逐步提升）	vLLM/Transformers，資料中心級 CUDA/加速庫
速度（tok/s）	官方宣稱最高約 30 tok/s	未有權威實測數據；多數實務回饋顯示顯著低於桌機/資料中心 GPU	未有單一官方固定值；實務上通常顯著高於消費級平台，且可達高併發高吞吐
首字延遲（TTFT）	未明確公布；實測體感可用	未明確公布；常受帶寬與量化配置影響	未明確公布；資料中心堆疊通常具備較低 TTFT
上下文長度	128K 支援；可用於 MCP 代理工作流	128K 支援；長上下文會進一步拉長延遲	128K 支援；在高頻寬 HBM 上較能承受長上下文
適用情境	本地/邊緣、重隱私、單機研發與內網代理，強調「可用速度」與低 TCO	本地開發與小規模實驗；對即時性要求高時不建議使用 120B	生產級與高併發、長鏈推理、批量任務，追求最佳 tok/s 與 TCO
重要備註	需升級至 Adrenalin 25.8.1 WHQL 解鎖 120B 載入；Ryzen AI Max+ 大記憶體也利於 MCP	帶寬/熱設計限制使吞吐不易提升；建議以 20B 承接互動、120B 批量	120B 設計即針對單卡 H100 高效運行，原生 MXFP4 與 vLLM 能顯著提升吞吐

註解與依據

AMD 官方部落格明確表示，Ryzen AI Max+ 395（128GB）可在 Windows 以 GGML 轉換的 MXFP4 權重運行 gpt‑oss‑120B，權重約需 61GB，並需 Adrenalin 25.8.1 WHQL 或以上驅動；速度最高約 30 tokens/s，且可支持 MCP 工作流。
OpenAI 模型卡與說明指出 gpt‑oss‑120B 為原生 MXFP4 的 MoE 設計，能在單張 H100（80GB）上高效運行；20B 對應 16GB 記憶體級別的本地/邊緣場景。
綜合社群與實務觀察，本地 Apple Silicon 可載入量化後之 120B，但受限於記憶體頻寬與軟體堆疊最佳化，體感吞吐顯著低於資料中心級 GPU；官方未提供 M4 Max 針對 120B 的權威 tok/s 數據，故以「可運行但較慢」描述，並建議以 20B 互動、120B 批量的分層策略作為更經濟選擇。
Hugging Face 與 ROCm/AMD 的「Day 0」指南亦強調 120B 可於單卡 H100、而 20B 可於 16GB 記憶體級環境順暢運行，呼應上列定位。

想把 120B 跑到更快？三個實用方向

量化與上下文控制：優先使用 MXFP4/4‑bit，縮短 prompt 與限制 CoT 長度，直接降低計算量。
高效推理框架：在 H100 採用 vLLM/Transformers，善用並行與 KV 快取，提升 tok/s 與併發。
任務分流：互動走 20B，本地開發/邊緣需求友善；高難度或批量由 120B 在 H100/雲端節點承接，最佳化 TCO。

準備把大模型落地到你的產品與工作流？Tenten 專精 AI 產品化、私有化部署、長上下文檢索與代理式工作流實作，協助你在不同硬體上榨出最佳性價比。想評估你的場景與算力配置，歡迎和我們聊聊，立即預約顧問會議：https://tenten.co/contact。