Best LLM stacks for Mac Studio M3 Ultra 512GB Ram

,

結論

Mac Studio M3 Ultra 512GB + 4TB SSD 是目前少數能「本機跑超大 open-weight model」的消費級機器,但它不是 NVIDIA 叢集替代品。它的優勢是能載入大模型,弱點是生成速度與長 context 成本

最適合你的本機模型排序

用途 首選 原因
OpenClaw / Hermes / Claude Code 類 agent Kimi K2.6 原生 agentic、長任務、tool calling、coding workflow 最貼近你的需求
本機高品質日常 coding agent Gemma 4 31B / 26B A4B Apple Silicon 友善、模型小但效率高,適合常駐
超大模型實驗 DeepSeek V4 Flash 284B total / 13B active,1M context,較可能本機量化後使用
最高上限但不實用 DeepSeek V4 Pro 1.6T total / 49B active,能載入不等於好用
中文 / coding / agent benchmark 實驗 GLM-5 / GLM-5.1 744B/754B 級別,Mac 可嘗試量化,但速度會是問題
不建議本機主力 Moonshot M2.7 若你指的是 MiniMax/Moonshot 類 frontier model,多數更適合 API,不適合本機 Mac 主力

DeepSeek V4 官方資訊:Pro 為 1.6T total / 49B active,Flash 為 284B total / 13B active,兩者支援 1M context。([DeepSeek API Docs][1])
Gemma 4 官方列出 E2B、E4B、31B、26B A4B 四種尺寸,定位包含 advanced reasoning 與 agentic workflows。([blog.google][2])
Kimi K2.6 官方定位為 open-source native multimodal agentic model,支援 long-horizon coding、tool calling、agent swarm,context 為 256K。([Hugging Face][3])
GLM-5 已開源,MIT License,官方定位從 vibe coding 到 agentic engineering。([Z.ai][4])

512GB RAM 實際可期待

模型級別 Q4 量化記憶體粗估 M3 Ultra 512GB 可行性 Agent 實用性
30B 18–30GB 很輕鬆
70B 40–60GB 很輕鬆
120B 70–100GB 可行 中高
200–300B MoE 160–260GB 可行
400B 260–360GB 可行但吃緊 中低
700B+ 430–520GB+ 勉強 / 不穩
1.6T MoE 800GB+ 權重級別,視量化與架構 不建議

關鍵:MoE 的「active parameters」不代表只需要 active 部分記憶體。權重仍要存放。DeepSeek V4 Pro 49B active 不等於 49B 模型。

4TB SSD 是否夠

夠,但不要亂塞。

類型 大約占用
30B Q4 15–25GB
70B Q4 35–50GB
120B Q4 60–90GB
300B Q4 150–220GB
700B Q4 350–500GB
1.6T Q4 800GB–1TB+

4TB 可以放多個量化版本,但建議保留 1TB 給 cache、repo、index、vector DB、agent workspace。

推薦架構

1. Daily Driver Agent

OpenClaw / Hermes / Claude Code
→ LiteLLM or OpenAI-compatible local endpoint
→ Ollama MLX / llama.cpp Metal / mlx-lm
→ Gemma 4 31B 或 Kimi K2.6 quant

Ollama 已在 Apple Silicon preview MLX backend,目標是提高 macOS 本機推論速度。([Ollama][5])
MLX LM 官方支援 Apple Silicon 上的生成、量化、LoRA / full fine-tuning。([GitHub][6])

2. 最佳模型分工

任務 模型
長時間 coding agent Kimi K2.6
快速修 code / shell / repo 問答 Gemma 4 31B
中文策略 / 長文 / business reasoning Kimi K2.6 或 GLM
大型 repo 分析 DeepSeek V4 Flash
多 agent swarm Kimi K2.6
本機低延遲 assistant Gemma 4 26B A4B
實驗性 frontier DeepSeek V4 Pro / GLM-5.1

M5 Ultra 512GB 的期待

不要把 M5 Ultra 想成「能跑 1T+ frontier model 的神機」。比較合理的期待:

項目 M3 Ultra 512GB M5 Ultra 512GB 假設
可載入模型大小 已經很強 差異不大
tokens/sec 明顯提升
長 context 可用但慢 較可用
300B Q4 可跑 更適合
700B Q4 勉強 仍不舒服
1T+ 不實用 仍不實用

但目前 M5 Ultra Mac Studio 與 512GB 記憶體規格還不是穩定事實。Apple M5 Max 官方支援最高 128GB unified memory;Mac Studio M5 Ultra 規格仍屬未發布/傳聞階段。([Apple][7])
近期也有報導指出 Mac Studio 高記憶體配置受 DRAM 供應限制影響,512GB 選項曾被移除或受限。([Tom’s Hardware][8])

最佳購買判斷

你如果現在能買到 M3 Ultra 512GB + 4TB,它比等待不確定的 M5 Ultra 512GB 更實際。

原因:

  1. 512GB unified memory 本身就是核心價值。
  2. M5 Ultra 主要提升速度,不會改變「1T+ 模型仍不適合本機」這件事。
  3. agent 工作流更吃穩定、context、工具呼叫、長時間不中斷,不只吃 benchmark。
  4. 你真正需要的是 local + cloud hybrid,不是純 local。

最佳配置

本機主力:
Gemma 4 31B / Kimi K2.6 quant

本機大模型:
DeepSeek V4 Flash Q4 / GLM Air 或 GLM-5 quant

雲端補位:
Claude Opus / GPT-5.x / Gemini / DeepSeek V4 Pro API

Router:
LiteLLM

Runtime:
Ollama MLX + llama.cpp Metal + mlx-lm

Agent:
OpenClaw / Hermes Agent / Claude Code local endpoint

最終建議

你的最佳 frontier local stack:

Mac Studio M3 Ultra 512GB / 4TB
+ Ollama MLX
+ llama.cpp Metal
+ mlx-lm
+ LiteLLM
+ Kimi K2.6 as main agent model
+ Gemma 4 31B as fast local worker
+ DeepSeek V4 Flash as heavy reasoning / long-context model
+ Claude/GPT/Gemini API as fallback

不要把 DeepSeek V4 Pro 當本機主力。
真正能提升 OpenClaw / Hermes / Claude Code 產能的是 Kimi K2.6 + Gemma 4 + DeepSeek V4 Flash + LiteLLM router