如何在 MacBook Pro M4 Max 128GB 上運行 GLM 4.5-AIR 模型

Aiko · August 3, 2025, 3:55am

How to run GLM 4.5-AIR model on Macbook Pro M4 Max 128GB

如何在 MacBook Pro M4 Max 128GB 上運行 GLM 4.5-AIR 模型

想在你的 MacBook Pro M4 Max 上體驗最新的 GLM 4.5-AIR 模型嗎？這篇文章將詳細介紹如何在你的 Mac 上運行這個強大的 106 億參數大語言模型。

什麼是 GLM 4.5-AIR？

GLM 4.5-AIR 是 Zhipu AI 推出的開源 Mixture of Experts (MoE) 模型。這個模型擁有 1060 億總參數，但僅激活 120 億參數，提供了卓越的性能效率比。它支援 128K 上下文長度，具備混合推理能力，可以在複雜推理和快速響應之間切換。

最令人興奮的是，GLM 4.5-AIR 可以在配備 64GB 或 128GB 記憶體的 MacBook 上本地運行，而無需依賴雲端 API。

系統需求檢查

在開始之前，確保你的系統滿足以下要求：

硬體：MacBook Pro M4 Max 配備 128GB 統一記憶體
作業系統：macOS 13.5 或更高版本（建議使用 macOS 14）
Python：版本 3.9 或更高
可用儲存空間：至少 50GB 用於模型下載和安裝

第一步：安裝 MLX 框架

MLX 是 Apple 專為 Apple Silicon 設計的機器學習框架。它利用統一記憶體架構，讓 CPU 和 GPU 共享相同記憶體空間，大幅提升效能。

# 安裝 MLX 框架
pip install mlx-lm

第二步：下載 GLM 4.5-AIR 模型

有幾個量化版本可供選擇，根據你的記憶體容量和效能需求：

4-bit 量化版本（推薦）

from mlx_lm import load, generate

# 下載並載入 4-bit 量化模型
model, tokenizer = load("mlx-community/GLM-4.5-Air-4bit")

3-bit 量化版本（更小的記憶體佔用）

# 適合記憶體較小的系統
model, tokenizer = load("mlx-community/GLM-4.5-Air-3bit")

第三步：開始使用模型

載入模型後，你可以開始與 GLM 4.5-AIR 互動：

# 設定提示詞
prompt = "Write a Python function to calculate fibonacci numbers"

# 使用聊天模板格式化提示詞
if tokenizer.chat_template is not None:
    messages = [{"role": "user", "content": prompt}]
    formatted_prompt = tokenizer.apply_chat_template(
        messages, 
        add_generation_prompt=True,
        tokenize=False
    )
else:
    formatted_prompt = prompt

# 生成回應
response = generate(
    model, 
    tokenizer, 
    prompt=formatted_prompt, 
    verbose=True,
    max_tokens=500
)

print(response)

效能表現與記憶體使用

在 MacBook Pro M4 Max 128GB 上，GLM 4.5-AIR 的表現令人印象深刻：

推理速度：4-bit 版本約 40 tokens/秒
記憶體使用：峰值約 48GB
6-bit 版本：約 31 tokens/秒

這意味著即使在運行模型的同時，你仍有充足的記憶體運行其他應用程式。

進階使用技巧

調整生成參數

response = generate(
    model, 
    tokenizer, 
    prompt=formatted_prompt,
    max_tokens=1000,
    temperature=0.7,
    top_p=0.9,
    verbose=True
)

批次處理

prompts = [
    "Explain quantum computing",
    "Write a sorting algorithm",
    "Create a REST API example"
]

for prompt in prompts:
    messages = [{"role": "user", "content": prompt}]
    formatted_prompt = tokenizer.apply_chat_template(
        messages, 
        add_generation_prompt=True,
        tokenize=False
    )
    response = generate(model, tokenizer, prompt=formatted_prompt)
    print(f"Prompt: {prompt}")
    print(f"Response: {response}\n")

整合到開發工作流程

GLM 4.5-AIR 特別適合程式設計任務。你可以將它整合到程式碼編輯器中，或建立自定義的編程助手：

def code_assistant(task_description):
    messages = [
        {"role": "system", "content": "You are a helpful programming assistant. Provide clean, well-commented code."},
        {"role": "user", "content": task_description}
    ]
    
    formatted_prompt = tokenizer.apply_chat_template(
        messages, 
        add_generation_prompt=True,
        tokenize=False
    )
    
    return generate(
        model, 
        tokenizer, 
        prompt=formatted_prompt,
        max_tokens=1000,
        temperature=0.3
    )

# 使用範例
result = code_assistant("Create a web scraper for extracting product prices")
print(result)

常見問題解決

記憶體不足錯誤

如果遇到記憶體不足的問題，嘗試：

關閉其他大型應用程式
使用 3-bit 量化版本
重啟系統清理記憶體

下載速度慢

模型檔案較大（約 44GB），建議：

使用穩定的網路連接
避免在網路尖峰時段下載
考慮使用 VPN 改善連接速度

Python 版本相容性

確保使用原生 ARM64 版本的 Python：

python -c "import platform; print(platform.processor())"

輸出應該是 arm，而不是 i386。

與其他工具的整合

GLM 4.5-AIR 可以與多種開發工具整合：

與 LM Studio 整合

LM Studio 提供圖形化界面來運行本地模型。你可以下載預建的 MLX 版本並在 LM Studio 中使用。

與 Claude Code 整合

GLM 4.5-AIR 支援工具調用功能，可以與 Claude Code 等程式設計工具整合，提供更豐富的編程體驗。

為什麼選擇本地運行？

在本地運行 GLM 4.5-AIR 有諸多優勢：

隱私保護：資料不會離開你的設備
離線使用：無需網路連接即可使用
無 API 限制：沒有請求次數或 token 限制
成本效益：一次性設置，無持續費用
客製化能力：可以根據需求調整模型參數

未來展望

隨著 Apple Silicon 技術的不斷發展和 MLX 框架的持續優化，本地大語言模型的性能將進一步提升。GLM 4.5-AIR 在 MacBook Pro M4 Max 上的出色表現，預示著個人電腦上的 AI 應用將迎來新的黃金時代。

這種趨勢使得開發者和研究人員能夠在本地環境中進行 AI 實驗和開發，而無需依賴昂貴的雲端服務或專用的 GPU 集群。

總結

GLM 4.5-AIR 在 MacBook Pro M4 Max 128GB 上的運行證明了本地大語言模型的可行性和實用性。通過 MLX 框架的優化，這個 106 億參數的模型能夠以令人滿意的速度運行，同時保持較低的記憶體佔用。

無論你是開發者、研究員還是 AI 愛好者，這套解決方案都為你提供了一個強大、私密且經濟的 AI 助手。隨著技術的不斷進步，我們可以期待更多類似的突破，讓高性能 AI 模型真正走進每個人的電腦。