社群媒體爬取 Top 3 免費開源 MCP Server

Aiko · April 5, 2026, 11:30pm

社群媒體爬取 Top 3 免費開源 MCP Server

限制條件：只要 GitHub 社群免費開源方案，不要 SaaS、不要付費 API、不要訂閱制。
使用場景：內容策展 — 從社群媒體 URL 提取文字 + 媒體 + 互動指標（X、小紅書、IG 等）

第一名：Agent-Reach — 多平台一站式最強方案

Repo: GitHub - Panniantong/Agent-Reach: Give your AI agent eyes to see the entire internet. Read & search Twitter, Reddit, YouTube, GitHub, Bilibili, XiaoHongShu — one CLI, zero API fees. · GitHub
授權: 開源
語言: Python CLI

為什麼是第一名

這就是你要找的東西。一條指令安裝，零 API 費用，涵蓋最多平台——包括小紅書和抖音，幾乎沒有其他免費 MCP 支援這些平台。

支援平台

平台	後端工具	需要認證
X / Twitter	`twitter-cli`（Cookie 認證）	Cookie
小紅書	`xhs-cli` 透過 `mcporter` MCP	Cookie
Reddit	`rdt-cli`（公開 JSON API）	不需要
YouTube	`yt-dlp`	不需要
Bilibili	`yt-dlp`	不需要
GitHub	`gh` CLI	不需要
抖音	`douyin-mcp-server`	不需要
LinkedIn	`linkedin-scraper-mcp`	Cookie
任何網站	Jina Reader	不需要

安裝

pip install agent-reach
agent-reach install

# 設定 Twitter（從瀏覽器取得 Cookie）
agent-reach configure twitter-cookies "<你的_cookie_字串>"

# 設定小紅書（自動從瀏覽器提取）
pipx install xiaohongshu-cli
xhs login

架構（為什麼聰明）

每個平台都是可替換模組——不滿意就換掉：

channels/
├── twitter.py    → twitter-cli    （可換成：官方 API、nitter...）
├── xiaohongshu.py → mcporter MCP  （可換成：其他 XHS 工具...）
├── reddit.py     → rdt-cli        （可換成：PRAW、Pushshift...）
├── youtube.py    → yt-dlp         （可換成：YouTube API、Whisper...）
├── bilibili.py   → yt-dlp         （可換成：bilibili-api...）
├── douyin.py     → mcporter MCP   （可換成：其他抖音工具...）
├── linkedin.py   → linkedin-mcp   （可換成：LinkedIn API...）
└── web.py        → Jina Reader    （可換成：Firecrawl、Crawl4AI...）

相容性

Claude Code、Cursor、OpenClaw、Windsurf、Codex — 任何能跑 shell 指令的 Agent。

限制

沒有原生 Instagram 支援（用 Crawl4AI MCP 作為備用 — 見第三名）
Cookie 認證代表有封號風險 — 務必用小號
主要由中國社群維護（文件中英雙語）

第二名：XActions — X/Twitter 深度提取最強

Repo: GitHub - nirholas/XActions: ⚡ The Complete X/Twitter Automation Toolkit — Scrapers, MCP server for AI agents (Claude/GPT), CLI, browser scripts. No API fees. Open source. Unfollow people who don't follow back. Monitor real-time analytics. Auto follow, like, comment, scrape, without API. Follow Bot. Like bot. Grow your account automatically. · GitHub
授權: MIT（人類免費；AI Agent 可選微支付 x402）
語言: JavaScript / Node.js

為什麼是第二名

如果 X/Twitter 是你的主要平台，沒有比這更完整的了。51+ MCP 工具、111 條 CLI 指令、內建情緒分析、跨平台支援（Bluesky、Mastodon、Threads）、工作流引擎——全部免費，全部本地執行。

你會得到

51+ MCP 工具：爬取推文、個人檔案、追蹤者、媒體、搜尋、分析
互動指標：讚、轉推、引用、回覆、瀏覽數——全部結構化
媒體提取：影片下載器從任何推文提取 MP4 URL
情緒分析：內建離線分析器，不需要外部 API
跨平台：同時支援 Bluesky（AT Protocol）和 Mastodon
工作流引擎：宣告式 JSON 管線，支援觸發器和鏈式動作

安裝

npm install -g xactions
xactions login  # 儲存你的 auth_token cookie

# 自動產生 Claude Desktop MCP 設定
npx xactions mcp-config --client claude

或手動寫入 claude_desktop_config.json：

{
  "mcpServers": {
    "xactions": {
      "command": "npx",
      "args": ["-y", "xactions", "mcp"],
      "env": {
        "XACTIONS_SESSION_COOKIE": "你的_auth_token"
      }
    }
  }
}

取得 Auth Token

前往 x.com
DevTools (F12) → Application → Cookies
複製 auth_token 的值

限制

只專注 X/Twitter（Bluesky + Mastodon 是次要）
不支援小紅書、Instagram、Reddit
瀏覽器自動化 = 有速率限制（內建 1-3 秒延遲）

第三名：Crawl4AI MCP Server — 萬用備用方案

Repo: GitHub - MaitreyaM/WEB-SCRAPING-MCP: MCP Server leveraging crawl4ai for web scraping and LLM-based content extraction (Markdown, text snippets, smart extraction). Designed for AI agent integration. · GitHub
底層引擎: GitHub - unclecode/crawl4ai: 🚀🤖 Crawl4AI: Open-source LLM Friendly Web Crawler & Scraper. Don't be shy, join here: https://discord.gg/jP8KfhDhyN · GitHub
授權: 開源
語言: Python

為什麼是第三名

填補第一名和第二名的空白——Instagram 和其他沒有專門工具的平台。使用 Crawl4AI（Playwright 爬蟲引擎）加上 LLM 智慧提取——你可以丟任何社群媒體 URL 進去，用自然語言描述要什麼資料，拿回結構化 JSON。

你會得到

scrape_url：爬取任何 URL → 乾淨的 Markdown 輸出
extract_text_by_query：在頁面中搜尋特定文字模式
smart_extract：LLM 智慧提取——用自然語言描述你要什麼，拿回結構化 JSON
Docker 支援：自包含部署
相容：Claude、LangChain、LangGraph、任何 MCP 客戶端

安裝

git clone https://github.com/MaitreyaM/WEB-SCRAPING-MCP.git
cd WEB-SCRAPING-MCP

# Docker（推薦）
docker build -t crawl4ai-mcp-server .
docker run -it --rm -p 8002:8002 --env-file .env crawl4ai-mcp-server

# 或本地 Python
python -m venv venv
source venv/bin/activate
pip install -r requirements.txt
python webcrawl_mcp_server.py

MCP 客戶端連接到：http://127.0.0.1:8002/sse

智慧提取範例

用自然語言指示：

smart_extract https://instagram.com/p/ABC123
"提取：貼文文字、作者帳號、按讚數、留言數、圖片 URL、hashtag。回傳 JSON。"

限制

比 API 工具慢（Playwright 完整瀏覽器渲染）
smart_extract 需要 Google Gemini API Key（有免費額度）
沒有社群媒體專用結構化 schema——你自己定義提取規則
需登入才能看的內容（私人 IG 帳號）需要注入 Cookie

建議組合：三者搭配使用

使用者輸入 URL
       │
       ▼
┌─────────────────────────────┐
│       URL 模式路由器         │
├─────────────────────────────┤
│                             │
│  x.com / twitter.com        │──→ XActions MCP（第二名）
│                             │    [最深度的 X/Twitter 提取]
│  xiaohongshu.com            │
│  xhslink.com               │──→ Agent-Reach（第一名）
│  reddit.com                 │    [xhs-cli / rdt-cli / yt-dlp]
│  youtube.com                │
│  bilibili.com               │
│  douyin.com                 │
│                             │
│  instagram.com              │
│  tiktok.com                 │──→ Crawl4AI MCP（第三名）
│  facebook.com               │    [萬用備用方案]
│  其他任何 URL               │
│                             │
└─────────────────────────────┘
       │
       ▼
  統一 JSON 輸出
  { text, media[], metrics, author, date, platform }

快速比較

功能	Agent-Reach	XActions	Crawl4AI MCP
費用	100% 免費	100% 免費（人類）	100% 免費
平台數	9+（X、小紅書、Reddit、YT、B站、抖音、LinkedIn、GitHub、網頁）	X/Twitter + Bluesky + Mastodon	任何 URL
小紅書	原生		透過 smart_extract
X/Twitter 深度	基本（搜尋、閱讀）	深度（51+ 工具、分析、情緒）	透過 smart_extract
Instagram			透過 Playwright
結構化輸出	各平台專屬 JSON	結構化 JSON（30+ 欄位）	LLM 提取 JSON
速度	快（CLI 工具）	快（Cookie 認證）	慢（瀏覽器渲染）
自架	純本地	純本地	本地 / Docker
Claude Code 相容
OpenClaw 相容

下一步

pip install agent-reach && agent-reach install — 一次裝好 9 個平台
npm install -g xactions && xactions login — X/Twitter 深度提取
docker build Crawl4AI MCP 處理 Instagram/TikTok/其他 URL
寫一個路由 Skill/Prompt，自動把 URL 分配到對的工具