gpt‑oss‑120B、gpt‑oss‑20B、DeepSeek R1、Kimi K2 關鍵差異

Aiko · August 6, 2025, 7:32am

綜覽：gpt‑oss‑120B、gpt‑oss‑20B、DeepSeek R1、Kimi K2 關鍵差異

以下表格彙整四款熱門開源/開權重推理模型的核心規格、授權、效能與適用情境，協助你快速選型。

指標	gpt‑oss‑120B	gpt‑oss‑20B	DeepSeek R1 0528 (May ’25)	Kimi K2
開發方	OpenAI	OpenAI	DeepSeek	Moonshot AI
架構	MoE（Mixture‑of‑Experts）	MoE（與 120B 結構一致、超參不同）	MoE 推理加強（R1 推理型）	MoE（384 專家、動態路由）
參數規模（總/啟用）	117B / 5.1B 啟用	21B / 3.6B 啟用	685B / 37B 啟用	1T / 32B 啟用
上下文長度	約 131k tokens	約 131k tokens（系列一致）	128k tokens	128k tokens
影像輸入	不支援	不支援	不支援	不支援
發布時間	2025-08	2025-08	2025-05	2025-07
權重可用性	開放權重（Hugging Face 提供）	開放權重	開放權重	開放權重
授權	Apache 2.0	Apache 2.0	MIT（R1 0528 權重）	Modified MIT
商用限制	無（可商用）	無（可商用）	無（可商用）	無（可商用）
特色能力	近乎對標 o4‑mini 推理、可調推理深度、完整 CoT、工具使用、原生 MXFP4、單張 H100 可跑	近 o3‑mini 表現、設計給邊緣/本地低延遲、16GB 記憶體可跑	推理導向、思維鏈長、37B 啟用參數、128k 長上下文	代理式任務、軟體工程與長程推理強、384 專家僅 8+1 啟用、SWE‑Bench 表現亮眼
速度/延遲（相對）	較快，TTFT 低、輸出約 260 tok/s（同級最佳之一）	較低延遲、面向本地	—（視部署）	較慢（約 39 tok/s）；TTFT 0.55s
參考價格（每百萬 Token，混合或輸入/輸出）	約 $0.26 混合（3:1），In $0.15 / Out $0.60	—（開源自託管為主）	—（視供應商）	約 $1.07 混合；In $0.60 / Out $2.50
典型部署	單張 H100、雲或本地	消費級 GPU/邊緣裝置	大規模雲端/H 系列 GPU	大規模 EP/PD 架構、可用 128×H200 高併發
適用情境	高推理與代理工作流、結構化輸出	低延遲本地/專用場景、成本敏感	長鏈推理、研究與推理型應用	代碼維運、自主工具鏈、企業自建代理與長文脈分析

說明與來源重點：

gpt‑oss 系列由 OpenAI 於 2025-08 發布，兩款皆為開放權重、Apache 2.0 授權，強調可調節推理深度、完整 CoT、工具使用與 agentic 工作流；120B 可在單張 80GB/H100 上以原生 MXFP4 高效運行，20B 可在 16GB 記憶體裝置上本地推論。
gpt‑oss‑120B 模型卡與第三方匯總顯示其 117B 總參數、5.1B 啟用參數、原生 MXFP4、可微調與結構化輸出等能力；開放平台亦標示 131k 文脈與低價位等級供應。
gpt‑oss‑20B（NVIDIA NIM 文件頁也描述）為 21B 總參數、3.6B 啟用、與 120B 架構等同的 MoE，小型化面向低延遲本地/專用部署，亦提供 CoT、工具使用與可調推理強度，適合企業私有化落地。
DeepSeek R1 0528（May ’25）與 Kimi K2 均提供 128k 上下文、無影像輸入、開放權重與寬鬆授權；R1 0528 標示 685B 總參數、37B 啟用參數，屬強推理取向。
Kimi K2 由 Moonshot AI 於 2025-07 發布，為 1 兆參數 MoE、384 專家、每 token 啟用約 32B 參數，定位為開源代理式模型；第三方分析列出其 MMLU≈0.824、Intelligence Index≈49、輸出速率約 39 tok/s、TTFT≈0.55s、128k 文脈，以及商用友善授權與 API 定價檔位。
gpt‑oss‑120B 與 Kimi K2 直接對比頁顯示：前者 131k 文脈、後者 128k；兩者皆開放權重且允許商用，授權分別為 Apache 2.0 與 Modified MIT。

快速選型建議

需要高推理表現、易部署與較低成本：優先考慮 gpt‑oss‑120B；若需本地化與超低延遲，選 gpt‑oss‑20B。
想要長鏈推理研究或對 R1 系列生態熟悉：考慮 DeepSeek R1 0528（May ’25）。
面向軟體工程、長文脈分析與客製代理工作流：Kimi K2 以 MoE 與工具使用能力見長，社群與部署實作豐富（如 128×H200 大規模部署案例）。

想把這些模型變成你的競爭優勢？

Tenten 專注端到端 AI 產品化與代理式工作流落地，涵蓋模型選型、私有化部署、資料管線、工具鏈整合與成本優化。若你準備把 gpt‑oss、DeepSeek 或 Kimi K2 應用在實際業務，歡迎與我們聊聊你的場景與需求，立即預約顧問會議。