Top OpenSource AI Model compare - 2026-0419

Aiko · April 18, 2026, 5:01pm

核心規格總覽

模型	發布日期	架構	總參數	激活參數	上下文長度	授權	輸入價格 (USD/MTok)	輸出價格 (USD/MTok)
MiniMax M2.7	2026-03	MoE	未公開	10B	256K	閉源	未公開	未公開
DeepSeek V3.2	2025-12	MoE	未公開	未公開	128K	開源	$0.28	$0.42
MiMo-V2-Pro	2026-03-18	MoE	1T+	42B	1M	閉源	$1.00	$3.00
Kimi K2.5	2026-01-27	MoE	1T	32B	262K	閉源	$0.60	$3.00
Z.ai GLM 5.1	2026-04	Dense	754B	754B	200K+	MIT (可商用)	未公開	未公開
Qwen3.6 Plus	2026-04-02	Hybrid MoE	未公開	未公開	1M	開源	$0.33	$1.95
Gemma4 31B	2026-04-02	Dense	31B	31B	256K	Apache 2.0	$0.13-$1.14	$0.38-$1.14

*註：Gemma4 系列另有 26B A4B MoE (激活 3.8B) 與 E4B/E2B 邊緣版本 *

基準測試	MiniMax M2.7	DeepSeek V3.2	MiMo-V2-Pro	Kimi K2.5	GLM 5.1	Qwen3.6 Plus	Gemma4 31B
SWE-Pro (真實軟體工程)	56.22%	未公開	未公開	未公開	未公開	未公開	未公開
SWE-bench Verified	78%	未公開	78.0%	未公開	未公開	78.8%	未公開
Terminal-Bench 2.0	57.0%	46.4%	57.1%	50.8%	未公開	61.6%	55.6%
LiveCodeBench v6	未公開	未公開	未公開	未公開	未公開	未公開	80.0%
VIBE-Pro (端到端交付)	55.6%	未公開	未公開	未公開	未公開	未公開	未公開
GDPval-AA ELO	1495	未公開	1426	未公開	未公開	未公開	未公開
AIME 2026 (數學)	未公開	未公開	未公開	50.2% (HLE)	未公開	未公開	89.2%
GPQA Diamond (科學)	未公開	未公開	未公開	未公開	79.2%	未公開	84.3%
τ2-bench Agentic	未公開	38%	未公開	未公開	未公開	48.2%	86.4%
MMLU Pro	未公開	未公開	未公開	未公開	未公開	未公開	85.2%
MMMU Pro (多模態)	未公開	未公開	未公開	未公開	未公開	未公開	76.9%
Arena AI ELO	未公開	未公開	未公開	未公開	未公開	未公開	1452 (#3 開源模型)

核心優勢：

多模態能力：

硬體親和性：

定價優勢：

使用場景	推薦模型	關鍵理由
極致性價比程式碼生成	DeepSeek V3.2	成本僅為同級 1/5-1/7，Codeforces ELO 2386
最長上下文 (1M tokens)	MiMo-V2-Pro / Qwen3.6 Plus	唯二支援 1M 上下文，適合超大程式碼庫
視覺+程式碼+長輸出	Kimi K2.5	唯一支援 262K 輸出長度，Agent Swarm 可協調 100 並行子 Agent
企業自託管/合規/開源	Gemma4 31B / GLM 5.1	Apache 2.0 (Gemma4) 或 MIT (GLM) 可完全離線部署，Gemma4 硬體需求更低 (單卡 H100)
輕量級高效 Agent	MiniMax M2.7	僅 10B 激活參數達頂級 Agent 效能，理論推論成本最低
中文語境與全球部署	Qwen3.6 Plus	支援 201 種語言，Terminal-Bench 61.6% 領先，MCPMark 48.2%
本地端/邊緣設備部署	Gemma4 E4B/E2B	唯一專為手機與 IoT 設計的頂級模型，4B 有效參數可在 1.5GB RAM 運行
數學與科學推理	Gemma4 31B	AIME 2026 (89.2%) 與 GPQA Diamond (84.3%) 領先，Thinking 模式可產生 4000+ tokens 推理鏈
Agent 工具使用	Gemma4 31B	τ2-bench Retail 86.4%，比 Gemma3 提升 1200%，大幅超越 Qwen3.6 (48.2%)

開源程度的極致：相較 GLM 5.1 (MIT) 與 DeepSeek (開源)，Gemma4 的 Apache 2.0 更為寬鬆，且提供完整模型權重與技術報告
跨裝置統一架構：從手機 (E2B) 到單卡 H100 (31B) 使用相同技術底層 (Hybrid Attention、p-RoPE)，微調與部署知識可無縫轉移
「每參數智慧」效率：31B 模型在 Arena AI 超越參數量 20 倍的模型，代表優化的 Dense 架構在特定參數範圍內仍具競爭力，無需盲目追求 MoE 大參數
多模態邊緣運算：E4B/E2B 是唯二在 <4B 參數級別支援 Audio + Image + Text 的模型，適合語音助理與離線翻譯場景

Gemma4 無原生長輸出：雖有 256K 上下文，但輸出長度限制未明確標示為 256K (多數模型僅 8K-16K)，若需生成长篇代碼報告仍需 Kimi K2.5
Agent 生態成熟度：Gemma4 雖在 τ2-bench 表現優異，但 MiniMax/Kimi 的 Agent 框架 (ClawEval、Agent Swarm) 在中文語境與實際整合度上更成熟
中文效能：Gemma4 支援 140+ 語言，但相較 MiniMax、Kimi、Qwen 等原生中文優化模型，可能在細微語境理解上略遜一籌