Best Nvidia Model List for OpenClaw (NemoClaw)

根據最新 NVIDIA Build 平台資訊,以下是 NVIDIA NIM 提供的免費模型整理。免費層級提供 40 RPM(每分鐘 40 次請求)額度,需註冊 NVIDIA 帳號並完成手機驗證 。

模型名稱 開發商 參數規模 類別 核心能力 上下文長度 模型 ID(API 參考)
DeepSeek-R1 (0528) DeepSeek 6,710億 (MoE) 推理/程式 進階數學推理、程式碼生成 128K deepseek-ai/deepseek-r1-0528
Kimi K2.5 Moonshot AI 1兆 (MoE) 多模態/通用 視覺理解、長文件分析、高效推理 256K moonshotai/kimi-k2.5
Qwen3.5 VLM Alibaba 4,000億 (MoE) 視覺語言 高容量視訊/圖像理解、視覺問答 256K qwen/qwen3.5-vlm-400b-a35b
Qwen3 235B A22B Alibaba 2,350億 (MoE) 通用/工具 Agent 工具呼叫、多語言支援 128K qwen/qwen3-235b-a22b
GLM-5 Zhipu AI 7,440億 (MoE) 代理/推理 複雜系統推理、長期 Agent 任務規劃 1M thudm/glm-5-74b-a42b
GLM-4.7 Zhipu AI 未公開 程式/代理 多語言程式碼生成、工具使用、UI 理解 128K thudm/glm-4.7-9b
Llama 3.3 70B Meta 700億 通用對話 多語言指令遵循、RAG、工具使用 128K meta/llama-3.3-70b-instruct
Llama Nemotron NVIDIA Nano/Super/Ultra 推理/代理 企業級推理、合成資料生成、分類 128K nvidia/llama-nemotron-*
Nemotron 3 Super 120B NVIDIA 1,200億 (MoE) 對話/分析 高品質對話、企業應用優化 128K nvidia/nemotron-3-super-120b-a12b
MiniMax M2.5 MiniMax 2,300億 編碼/辦公 程式碼生成、推理、辦公自動化 128K minimaxai/minimax-m2.5
Mistral Small 4 Mistral AI 1,190億 程式碼 程式碼生成、邏輯推理 128K mistralai/mistral-small-4-119b-2603
Mistral Large Mistral AI 未公開 通用 多語言聊天、複雜推理 128K mistralai/mistral-large
Phi-4 Microsoft 中小型 輕量級 數學推理、筆電/邊緣裝置部署 128K microsoft/phi-4

專業領域模型(免費層級同樣適用)

模型名稱 開發商 類別 應用場景
Cosmos-Reason1-56B NVIDIA 物理視覺 物理感知視訊理解、結構化推理
Reranker QA NVIDIA 檢索 問答相關性排序、段落檢索
NeMo Retriever Multilingual NVIDIA Embedding 26 語言長文件嵌入檢索
GLiNER PII 社群 安全 個人識別資訊 (PII) 偵測
ShieldGemma Google 內容安全 多語言內容審查、安全政策執行
FastConformer NVIDIA 語音識別 即時英語語音轉文字

使用限制與注意事項

  • 速率限制:40 requests/minute(個人開發足夠,商業級需付費)
  • API 格式:OpenAI 相容格式,Base URL 為 https://integrate.api.nvidia.com/v1
  • 可用地區:需確認 NIM 服務開放的國家/地區(部分國家可能限制)
  • 開發者方案:下載容器化 NIM 微服務可在本地 16 GPU/2 節點免費使用
  • 模型更新:部分最新模型(如 DeepSeek-R1 0528 版本)需手動在模型列表中搜尋

建議優先嘗試 DeepSeek-R1 (0528)Kimi K2.5,兩者在推理能力與長上下文處理上表現優異,且免費額度對於自動化內容處理(如你正在建的 UGC pipeline)相當實用。

針對 OpenClaw 自動化場景,Kimi K2.5 是 NVIDIA Build 免費層的最佳選擇,其次是 Llama 3.3 70B 作為備援。以下是完整分析與配置建議:

推薦排名(針對 OpenClaw 自動化)

排名 模型 推薦原因 適用 OpenClaw 場景 40 RPM 實測表現
1 Kimi K2.5 • 256K 上下文可處理長影片逐字稿
• 與你現有 Kimi 訂閱(Allegretto)協同
• 1T MoE 參數量,Agent 工具呼叫準確率高
YouTube 轉錄後的內容分析、批次文章生成、長文件 RAG 約 15-20 秒/長請求
2 Llama 3.3 70B • 128K 上下文足夠大多數任務
• 生態系統最完整,OpenClaw 相容性最佳
• 中文支援優秀,回應穩定
日常自動化腳本、社群貼文生成、程式碼輔助 約 5-8 秒/請求
3 GLM-4.7 (9B) • 輕量化,延遲最低
• 專精代理任務與 UI 操作
• 適合高頻率、短內容處理
即時通知摘要、快速分類標籤、簡短回覆生成 約 2-3 秒/請求
4 DeepSeek-R1 (0528) • 推理能力最強,適合複雜決策
• 671B MoE 但 40 RPM 下仍可接受
財務分析、邏輯驗證、多步驟規劃任務 約 20-30 秒/請求

OpenClaw 配置教學

Step 1: 取得 NVIDIA API Key

  1. 註冊 build.nvidia.com
  2. 完成手機驗證(SMS 驗證必要)
  3. 產生 API Key(格式為 nvapi-...

Step 2: OpenClaw Settings 配置

在你的 OpenClaw MCP Settings JSON 中加入:

{
  "mcpServers": {
    "nvidia-nim": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-openai",
        "--api-base", 
        "https://integrate.api.nvidia.com/v1",
        "--api-key",
        "nvapi-YOUR_KEY_HERE"
      ],
      "env": {
        "MODEL": "moonshotai/kimi-k2.5",
        "MAX_TOKENS": "4096"
      }
    }
  }
}

Step 3: 針對 YouTube 轉錄 Workflow 的優化建議

根據你之前詢問的 YouTube 轉錄需求,建議採用 Cascade Routing 策略:

# 在 OpenClaw Skill 中的路由邏輯
def route_by_content_length(transcript_length):
    if transcript_length > 10000:
        return "nvidia-nim", "moonshotai/kimi-k2.5"  # 長文分析
    elif transcript_length > 3000:
        return "nvidia-nim", "meta/llama-3.3-70b-instruct"  # 中等長度
    else:
        return "nvidia-nim", "thudm/glm-4.7-9b"  # 快速摘要

40 RPM 限制下的用量規劃

任務類型 每分鐘上限 實際建議 替代方案(超限時)
影片轉錄分析 10 部短片 批次處理,非即時 啟用本地 youtube-transcript skill 預處理
社群貼文生成 20 則 快取模板,減少 API 呼叫 切換至本地 Phi-4 模型
長文摘要 2-3 篇 分段處理 > 統整 使用 GLM-5 1M 上下文減少分段次數

進階技巧:免費額度最大化

  1. 並發控制:OpenClaw 的 asyncio.Semaphore(35) 確保不超過 40 RPM,保留緩衝
  2. 模型級聯:先用 GLM-4.7 生成草稿,再用 Kimi K2.5 潤色,降低單一模型負載
  3. 快取策略:對重複性任務(如固定格式貼文)使用本地向量快取,減少 60% API 呼叫

結論:立即在 OpenClaw 中配置 Kimi K2.5(256K 上下文完美契合你的長影片分析需求),並將 Llama 3.3 70B 設為 fallback。這兩個在免費層的 40 RPM 限制下,足以支撐一人公司每日 100-200 次自動化任務。