Aiko
1
根據最新 NVIDIA Build 平台資訊,以下是 NVIDIA NIM 提供的免費模型整理。免費層級提供 40 RPM(每分鐘 40 次請求)額度,需註冊 NVIDIA 帳號並完成手機驗證 。
| 模型名稱 |
開發商 |
參數規模 |
類別 |
核心能力 |
上下文長度 |
模型 ID(API 參考) |
| DeepSeek-R1 (0528) |
DeepSeek |
6,710億 (MoE) |
推理/程式 |
進階數學推理、程式碼生成 |
128K |
deepseek-ai/deepseek-r1-0528 |
| Kimi K2.5 |
Moonshot AI |
1兆 (MoE) |
多模態/通用 |
視覺理解、長文件分析、高效推理 |
256K |
moonshotai/kimi-k2.5 |
| Qwen3.5 VLM |
Alibaba |
4,000億 (MoE) |
視覺語言 |
高容量視訊/圖像理解、視覺問答 |
256K |
qwen/qwen3.5-vlm-400b-a35b |
| Qwen3 235B A22B |
Alibaba |
2,350億 (MoE) |
通用/工具 |
Agent 工具呼叫、多語言支援 |
128K |
qwen/qwen3-235b-a22b |
| GLM-5 |
Zhipu AI |
7,440億 (MoE) |
代理/推理 |
複雜系統推理、長期 Agent 任務規劃 |
1M |
thudm/glm-5-74b-a42b |
| GLM-4.7 |
Zhipu AI |
未公開 |
程式/代理 |
多語言程式碼生成、工具使用、UI 理解 |
128K |
thudm/glm-4.7-9b |
| Llama 3.3 70B |
Meta |
700億 |
通用對話 |
多語言指令遵循、RAG、工具使用 |
128K |
meta/llama-3.3-70b-instruct |
| Llama Nemotron |
NVIDIA |
Nano/Super/Ultra |
推理/代理 |
企業級推理、合成資料生成、分類 |
128K |
nvidia/llama-nemotron-* |
| Nemotron 3 Super 120B |
NVIDIA |
1,200億 (MoE) |
對話/分析 |
高品質對話、企業應用優化 |
128K |
nvidia/nemotron-3-super-120b-a12b |
| MiniMax M2.5 |
MiniMax |
2,300億 |
編碼/辦公 |
程式碼生成、推理、辦公自動化 |
128K |
minimaxai/minimax-m2.5 |
| Mistral Small 4 |
Mistral AI |
1,190億 |
程式碼 |
程式碼生成、邏輯推理 |
128K |
mistralai/mistral-small-4-119b-2603 |
| Mistral Large |
Mistral AI |
未公開 |
通用 |
多語言聊天、複雜推理 |
128K |
mistralai/mistral-large |
| Phi-4 |
Microsoft |
中小型 |
輕量級 |
數學推理、筆電/邊緣裝置部署 |
128K |
microsoft/phi-4 |
專業領域模型(免費層級同樣適用)
| 模型名稱 |
開發商 |
類別 |
應用場景 |
| Cosmos-Reason1-56B |
NVIDIA |
物理視覺 |
物理感知視訊理解、結構化推理 |
| Reranker QA |
NVIDIA |
檢索 |
問答相關性排序、段落檢索 |
| NeMo Retriever Multilingual |
NVIDIA |
Embedding |
26 語言長文件嵌入檢索 |
| GLiNER PII |
社群 |
安全 |
個人識別資訊 (PII) 偵測 |
| ShieldGemma |
Google |
內容安全 |
多語言內容審查、安全政策執行 |
| FastConformer |
NVIDIA |
語音識別 |
即時英語語音轉文字 |
使用限制與注意事項
- 速率限制:40 requests/minute(個人開發足夠,商業級需付費)
- API 格式:OpenAI 相容格式,Base URL 為
https://integrate.api.nvidia.com/v1
- 可用地區:需確認 NIM 服務開放的國家/地區(部分國家可能限制)
- 開發者方案:下載容器化 NIM 微服務可在本地 16 GPU/2 節點免費使用
- 模型更新:部分最新模型(如 DeepSeek-R1 0528 版本)需手動在模型列表中搜尋
建議優先嘗試 DeepSeek-R1 (0528) 與 Kimi K2.5,兩者在推理能力與長上下文處理上表現優異,且免費額度對於自動化內容處理(如你正在建的 UGC pipeline)相當實用。
Aiko
2
針對 OpenClaw 自動化場景,Kimi K2.5 是 NVIDIA Build 免費層的最佳選擇,其次是 Llama 3.3 70B 作為備援。以下是完整分析與配置建議:
推薦排名(針對 OpenClaw 自動化)
| 排名 |
模型 |
推薦原因 |
適用 OpenClaw 場景 |
40 RPM 實測表現 |
| 1 |
Kimi K2.5 |
• 256K 上下文可處理長影片逐字稿 • 與你現有 Kimi 訂閱(Allegretto)協同 • 1T MoE 參數量,Agent 工具呼叫準確率高 |
YouTube 轉錄後的內容分析、批次文章生成、長文件 RAG |
約 15-20 秒/長請求 |
| 2 |
Llama 3.3 70B |
• 128K 上下文足夠大多數任務 • 生態系統最完整,OpenClaw 相容性最佳 • 中文支援優秀,回應穩定 |
日常自動化腳本、社群貼文生成、程式碼輔助 |
約 5-8 秒/請求 |
| 3 |
GLM-4.7 (9B) |
• 輕量化,延遲最低 • 專精代理任務與 UI 操作 • 適合高頻率、短內容處理 |
即時通知摘要、快速分類標籤、簡短回覆生成 |
約 2-3 秒/請求 |
| 4 |
DeepSeek-R1 (0528) |
• 推理能力最強,適合複雜決策 • 671B MoE 但 40 RPM 下仍可接受 |
財務分析、邏輯驗證、多步驟規劃任務 |
約 20-30 秒/請求 |
OpenClaw 配置教學
Step 1: 取得 NVIDIA API Key
- 註冊 build.nvidia.com
- 完成手機驗證(SMS 驗證必要)
- 產生 API Key(格式為
nvapi-...)
Step 2: OpenClaw Settings 配置
在你的 OpenClaw MCP Settings JSON 中加入:
{
"mcpServers": {
"nvidia-nim": {
"command": "npx",
"args": [
"-y",
"mcp-openai",
"--api-base",
"https://integrate.api.nvidia.com/v1",
"--api-key",
"nvapi-YOUR_KEY_HERE"
],
"env": {
"MODEL": "moonshotai/kimi-k2.5",
"MAX_TOKENS": "4096"
}
}
}
}
Step 3: 針對 YouTube 轉錄 Workflow 的優化建議
根據你之前詢問的 YouTube 轉錄需求,建議採用 Cascade Routing 策略:
# 在 OpenClaw Skill 中的路由邏輯
def route_by_content_length(transcript_length):
if transcript_length > 10000:
return "nvidia-nim", "moonshotai/kimi-k2.5" # 長文分析
elif transcript_length > 3000:
return "nvidia-nim", "meta/llama-3.3-70b-instruct" # 中等長度
else:
return "nvidia-nim", "thudm/glm-4.7-9b" # 快速摘要
40 RPM 限制下的用量規劃
| 任務類型 |
每分鐘上限 |
實際建議 |
替代方案(超限時) |
| 影片轉錄分析 |
10 部短片 |
批次處理,非即時 |
啟用本地 youtube-transcript skill 預處理 |
| 社群貼文生成 |
20 則 |
快取模板,減少 API 呼叫 |
切換至本地 Phi-4 模型 |
| 長文摘要 |
2-3 篇 |
分段處理 > 統整 |
使用 GLM-5 1M 上下文減少分段次數 |
進階技巧:免費額度最大化
- 並發控制:OpenClaw 的
asyncio.Semaphore(35) 確保不超過 40 RPM,保留緩衝
- 模型級聯:先用 GLM-4.7 生成草稿,再用 Kimi K2.5 潤色,降低單一模型負載
- 快取策略:對重複性任務(如固定格式貼文)使用本地向量快取,減少 60% API 呼叫
結論:立即在 OpenClaw 中配置 Kimi K2.5(256K 上下文完美契合你的長影片分析需求),並將 Llama 3.3 70B 設為 fallback。這兩個在免費層的 40 RPM 限制下,足以支撐一人公司每日 100-200 次自動化任務。