核心規格總覽
| 模型 | 發布日期 | 架構 | 總參數 | 激活參數 | 上下文長度 | 授權 | 輸入價格 (USD/MTok) | 輸出價格 (USD/MTok) |
|---|---|---|---|---|---|---|---|---|
| MiniMax M2.7 | 2026-03 | MoE | 未公開 | 10B | 256K | 閉源 | 未公開 | 未公開 |
| DeepSeek V3.2 | 2025-12 | MoE | 未公開 | 未公開 | 128K | 開源 | $0.28 | $0.42 |
| MiMo-V2-Pro | 2026-03-18 | MoE | 1T+ | 42B | 1M | 閉源 | $1.00 | $3.00 |
| Kimi K2.5 | 2026-01-27 | MoE | 1T | 32B | 262K | 閉源 | $0.60 | $3.00 |
| Z.ai GLM 5.1 | 2026-04 | Dense | 754B | 754B | 200K+ | MIT (可商用) | 未公開 | 未公開 |
| Qwen3.6 Plus | 2026-04-02 | Hybrid MoE | 未公開 | 未公開 | 1M | 開源 | $0.33 | $1.95 |
| Gemma4 31B | 2026-04-02 | Dense | 31B | 31B | 256K | Apache 2.0 | $0.13-$1.14 | $0.38-$1.14 |
*註:Gemma4 系列另有 26B A4B MoE (激活 3.8B) 與 E4B/E2B 邊緣版本 *
軟體工程與 Agent 能力對比
| 基準測試 | MiniMax M2.7 | DeepSeek V3.2 | MiMo-V2-Pro | Kimi K2.5 | GLM 5.1 | Qwen3.6 Plus | Gemma4 31B |
|---|---|---|---|---|---|---|---|
| SWE-Pro (真實軟體工程) | 56.22% | 未公開 | 未公開 | 未公開 | 未公開 | 未公開 | 未公開 |
| SWE-bench Verified | 78% | 未公開 | 78.0% | 未公開 | 未公開 | 78.8% | 未公開 |
| Terminal-Bench 2.0 | 57.0% | 46.4% | 57.1% | 50.8% | 未公開 | 61.6% | 55.6% |
| LiveCodeBench v6 | 未公開 | 未公開 | 未公開 | 未公開 | 未公開 | 未公開 | 80.0% |
| VIBE-Pro (端到端交付) | 55.6% | 未公開 | 未公開 | 未公開 | 未公開 | 未公開 | 未公開 |
| GDPval-AA ELO | 1495 | 未公開 | 1426 | 未公開 | 未公開 | 未公開 | 未公開 |
| AIME 2026 (數學) | 未公開 | 未公開 | 未公開 | 50.2% (HLE) | 未公開 | 未公開 | 89.2% |
| GPQA Diamond (科學) | 未公開 | 未公開 | 未公開 | 未公開 | 79.2% | 未公開 | 84.3% |
| τ2-bench Agentic | 未公開 | 38% | 未公開 | 未公開 | 未公開 | 48.2% | 86.4% |
| MMLU Pro | 未公開 | 未公開 | 未公開 | 未公開 | 未公開 | 未公開 | 85.2% |
| MMMU Pro (多模態) | 未公開 | 未公開 | 未公開 | 未公開 | 未公開 | 未公開 | 76.9% |
| Arena AI ELO | 未公開 | 未公開 | 未公開 | 未公開 | 未公開 | 未公開 | 1452 (#3 開源模型) |
技術特性與定位分析
Gemma4 31B — 開源效率之王
核心優勢:
- Apache 2.0 授權:全場最開放,可無限制商用、微調、自託管
- 參數效率:僅 31B Dense 架構,卻在 Arena AI 排名 #3 開源模型,超越參數量 20 倍大的模型
- 混合注意力機制:交替使用局部 Sliding Window (1024 tokens) 與全局 Full Attention,兼顧速度與長程依賴
- Thinking 模式:可配置的深度推理,在 AIME 2026 達 89.2% (比 Gemma3 27B 提升 330%)
多模態能力:
- 原生支援 Text + Image + Video (31B/26B)
- 視覺編碼器:550M 參數,支援可變長寬比與 70-1120 tokens/圖片配置
- 邊緣版 (E2B/E4B) 額外支援 Audio
硬體親和性:
- 31B Dense:BF16 需 58.3GB VRAM,可量化至 17.4GB (Q4_0),單張 80GB H100 可跑
- 26B MoE:BF16 需 48GB,激活僅 3.8B 參數,推理速度接近 4B 模型
- E2B/E4B:量化後僅需 3.2GB-5GB RAM,可跑在手機與 Raspberry Pi
定價優勢:
- 透過 DeepInfra 等第三方 API 可達 $0.19/MTok (混合價),遠低於多數閉源模型
七款模型選型建議 (更新版)
| 使用場景 | 推薦模型 | 關鍵理由 |
|---|---|---|
| 極致性價比程式碼生成 | DeepSeek V3.2 | 成本僅為同級 1/5-1/7,Codeforces ELO 2386 |
| 最長上下文 (1M tokens) | MiMo-V2-Pro / Qwen3.6 Plus | 唯二支援 1M 上下文,適合超大程式碼庫 |
| 視覺+程式碼+長輸出 | Kimi K2.5 | 唯一支援 262K 輸出長度,Agent Swarm 可協調 100 並行子 Agent |
| 企業自託管/合規/開源 | Gemma4 31B / GLM 5.1 | Apache 2.0 (Gemma4) 或 MIT (GLM) 可完全離線部署,Gemma4 硬體需求更低 (單卡 H100) |
| 輕量級高效 Agent | MiniMax M2.7 | 僅 10B 激活參數達頂級 Agent 效能,理論推論成本最低 |
| 中文語境與全球部署 | Qwen3.6 Plus | 支援 201 種語言,Terminal-Bench 61.6% 領先,MCPMark 48.2% |
| 本地端/邊緣設備部署 | Gemma4 E4B/E2B | 唯一專為手機與 IoT 設計的頂級模型,4B 有效參數可在 1.5GB RAM 運行 |
| 數學與科學推理 | Gemma4 31B | AIME 2026 (89.2%) 與 GPQA Diamond (84.3%) 領先,Thinking 模式可產生 4000+ tokens 推理鏈 |
| Agent 工具使用 | Gemma4 31B | τ2-bench Retail 86.4%,比 Gemma3 提升 1200%,大幅超越 Qwen3.6 (48.2%) |
關鍵洞察:Gemma4 的差異化優勢
-
開源程度的極致:相較 GLM 5.1 (MIT) 與 DeepSeek (開源),Gemma4 的 Apache 2.0 更為寬鬆,且提供完整模型權重與技術報告
-
跨裝置統一架構:從手機 (E2B) 到單卡 H100 (31B) 使用相同技術底層 (Hybrid Attention、p-RoPE),微調與部署知識可無縫轉移
-
「每參數智慧」效率:31B 模型在 Arena AI 超越參數量 20 倍的模型,代表優化的 Dense 架構在特定參數範圍內仍具競爭力,無需盲目追求 MoE 大參數
-
多模態邊緣運算:E4B/E2B 是唯二在 <4B 參數級別支援 Audio + Image + Text 的模型,適合語音助理與離線翻譯場景
注意事項
- Gemma4 無原生長輸出:雖有 256K 上下文,但輸出長度限制未明確標示為 256K (多數模型僅 8K-16K),若需生成长篇代碼報告仍需 Kimi K2.5
- Agent 生態成熟度:Gemma4 雖在 τ2-bench 表現優異,但 MiniMax/Kimi 的 Agent 框架 (ClawEval、Agent Swarm) 在中文語境與實際整合度上更成熟
- 中文效能:Gemma4 支援 140+ 語言,但相較 MiniMax、Kimi、Qwen 等原生中文優化模型,可能在細微語境理解上略遜一籌