綜覽:gpt‑oss‑120B、gpt‑oss‑20B、DeepSeek R1、Kimi K2 關鍵差異
以下表格彙整四款熱門開源/開權重推理模型的核心規格、授權、效能與適用情境,協助你快速選型。
指標 | gpt‑oss‑120B | gpt‑oss‑20B | DeepSeek R1 0528 (May ’25) | Kimi K2 |
---|---|---|---|---|
開發方 | OpenAI | OpenAI | DeepSeek | Moonshot AI |
架構 | MoE(Mixture‑of‑Experts) | MoE(與 120B 結構一致、超參不同) | MoE 推理加強(R1 推理型) | MoE(384 專家、動態路由) |
參數規模(總/啟用) | 117B / 5.1B 啟用 | 21B / 3.6B 啟用 | 685B / 37B 啟用 | 1T / 32B 啟用 |
上下文長度 | 約 131k tokens | 約 131k tokens(系列一致) | 128k tokens | 128k tokens |
影像輸入 | 不支援 | 不支援 | 不支援 | 不支援 |
發布時間 | 2025-08 | 2025-08 | 2025-05 | 2025-07 |
權重可用性 | 開放權重(Hugging Face 提供) | 開放權重 | 開放權重 | 開放權重 |
授權 | Apache 2.0 | Apache 2.0 | MIT(R1 0528 權重) | Modified MIT |
商用限制 | 無(可商用) | 無(可商用) | 無(可商用) | 無(可商用) |
特色能力 | 近乎對標 o4‑mini 推理、可調推理深度、完整 CoT、工具使用、原生 MXFP4、單張 H100 可跑 | 近 o3‑mini 表現、設計給邊緣/本地低延遲、16GB 記憶體可跑 | 推理導向、思維鏈長、37B 啟用參數、128k 長上下文 | 代理式任務、軟體工程與長程推理強、384 專家僅 8+1 啟用、SWE‑Bench 表現亮眼 |
速度/延遲(相對) | 較快,TTFT 低、輸出約 260 tok/s(同級最佳之一) | 較低延遲、面向本地 | —(視部署) | 較慢(約 39 tok/s);TTFT 0.55s |
參考價格(每百萬 Token,混合或輸入/輸出) | 約 $0.26 混合(3:1),In $0.15 / Out $0.60 | —(開源自託管為主) | —(視供應商) | 約 $1.07 混合;In $0.60 / Out $2.50 |
典型部署 | 單張 H100、雲或本地 | 消費級 GPU/邊緣裝置 | 大規模雲端/H 系列 GPU | 大規模 EP/PD 架構、可用 128×H200 高併發 |
適用情境 | 高推理與代理工作流、結構化輸出 | 低延遲本地/專用場景、成本敏感 | 長鏈推理、研究與推理型應用 | 代碼維運、自主工具鏈、企業自建代理與長文脈分析 |
說明與來源重點:
- gpt‑oss 系列由 OpenAI 於 2025-08 發布,兩款皆為開放權重、Apache 2.0 授權,強調可調節推理深度、完整 CoT、工具使用與 agentic 工作流;120B 可在單張 80GB/H100 上以原生 MXFP4 高效運行,20B 可在 16GB 記憶體裝置上本地推論。
- gpt‑oss‑120B 模型卡與第三方匯總顯示其 117B 總參數、5.1B 啟用參數、原生 MXFP4、可微調與結構化輸出等能力;開放平台亦標示 131k 文脈與低價位等級供應。
- gpt‑oss‑20B(NVIDIA NIM 文件頁也描述)為 21B 總參數、3.6B 啟用、與 120B 架構等同的 MoE,小型化面向低延遲本地/專用部署,亦提供 CoT、工具使用與可調推理強度,適合企業私有化落地。
- DeepSeek R1 0528(May ’25)與 Kimi K2 均提供 128k 上下文、無影像輸入、開放權重與寬鬆授權;R1 0528 標示 685B 總參數、37B 啟用參數,屬強推理取向。
- Kimi K2 由 Moonshot AI 於 2025-07 發布,為 1 兆參數 MoE、384 專家、每 token 啟用約 32B 參數,定位為開源代理式模型;第三方分析列出其 MMLU≈0.824、Intelligence Index≈49、輸出速率約 39 tok/s、TTFT≈0.55s、128k 文脈,以及商用友善授權與 API 定價檔位。
- gpt‑oss‑120B 與 Kimi K2 直接對比頁顯示:前者 131k 文脈、後者 128k;兩者皆開放權重且允許商用,授權分別為 Apache 2.0 與 Modified MIT。
快速選型建議
- 需要高推理表現、易部署與較低成本:優先考慮 gpt‑oss‑120B;若需本地化與超低延遲,選 gpt‑oss‑20B。
- 想要長鏈推理研究或對 R1 系列生態熟悉:考慮 DeepSeek R1 0528(May ’25)。
- 面向軟體工程、長文脈分析與客製代理工作流:Kimi K2 以 MoE 與工具使用能力見長,社群與部署實作豐富(如 128×H200 大規模部署案例)。
想把這些模型變成你的競爭優勢?
Tenten 專注端到端 AI 產品化與代理式工作流落地,涵蓋模型選型、私有化部署、資料管線、工具鏈整合與成本優化。若你準備把 gpt‑oss、DeepSeek 或 Kimi K2 應用在實際業務,歡迎與我們聊聊你的場景與需求,立即預約顧問會議。