社群媒體爬取 Top 3 免費開源 MCP Server
限制條件:只要 GitHub 社群免費開源方案,不要 SaaS、不要付費 API、不要訂閱制。
使用場景:內容策展 — 從社群媒體 URL 提取文字 + 媒體 + 互動指標(X、小紅書、IG 等)
第一名:Agent-Reach — 多平台一站式最強方案
Repo: GitHub - Panniantong/Agent-Reach: Give your AI agent eyes to see the entire internet. Read & search Twitter, Reddit, YouTube, GitHub, Bilibili, XiaoHongShu — one CLI, zero API fees. · GitHub
授權: 開源
語言: Python CLI
為什麼是第一名
這就是你要找的東西。一條指令安裝,零 API 費用,涵蓋最多平台——包括小紅書和抖音,幾乎沒有其他免費 MCP 支援這些平台。
支援平台
| 平台 | 後端工具 | 需要認證 |
|---|---|---|
| X / Twitter | twitter-cli(Cookie 認證) |
|
| 小紅書 | xhs-cli 透過 mcporter MCP |
|
rdt-cli(公開 JSON API) |
||
| YouTube | yt-dlp |
|
| Bilibili | yt-dlp |
|
| GitHub | gh CLI |
|
| 抖音 | douyin-mcp-server |
|
linkedin-scraper-mcp |
||
| 任何網站 | Jina Reader |
安裝
pip install agent-reach
agent-reach install
# 設定 Twitter(從瀏覽器取得 Cookie)
agent-reach configure twitter-cookies "<你的_cookie_字串>"
# 設定小紅書(自動從瀏覽器提取)
pipx install xiaohongshu-cli
xhs login
架構(為什麼聰明)
每個平台都是可替換模組——不滿意就換掉:
channels/
├── twitter.py → twitter-cli (可換成:官方 API、nitter...)
├── xiaohongshu.py → mcporter MCP (可換成:其他 XHS 工具...)
├── reddit.py → rdt-cli (可換成:PRAW、Pushshift...)
├── youtube.py → yt-dlp (可換成:YouTube API、Whisper...)
├── bilibili.py → yt-dlp (可換成:bilibili-api...)
├── douyin.py → mcporter MCP (可換成:其他抖音工具...)
├── linkedin.py → linkedin-mcp (可換成:LinkedIn API...)
└── web.py → Jina Reader (可換成:Firecrawl、Crawl4AI...)
相容性
Claude Code、Cursor、OpenClaw、Windsurf、Codex — 任何能跑 shell 指令的 Agent。
限制
沒有原生 Instagram 支援(用 Crawl4AI MCP 作為備用 — 見第三名)
Cookie 認證代表有封號風險 — 務必用小號
主要由中國社群維護(文件中英雙語)
第二名:XActions — X/Twitter 深度提取最強
Repo: GitHub - nirholas/XActions: ⚡ The Complete X/Twitter Automation Toolkit — Scrapers, MCP server for AI agents (Claude/GPT), CLI, browser scripts. No API fees. Open source. Unfollow people who don't follow back. Monitor real-time analytics. Auto follow, like, comment, scrape, without API. · GitHub
授權: MIT(人類免費;AI Agent 可選微支付 x402)
語言: JavaScript / Node.js
為什麼是第二名
如果 X/Twitter 是你的主要平台,沒有比這更完整的了。51+ MCP 工具、111 條 CLI 指令、內建情緒分析、跨平台支援(Bluesky、Mastodon、Threads)、工作流引擎——全部免費,全部本地執行。
你會得到
- 51+ MCP 工具:爬取推文、個人檔案、追蹤者、媒體、搜尋、分析
- 互動指標:讚、轉推、引用、回覆、瀏覽數——全部結構化
- 媒體提取:影片下載器從任何推文提取 MP4 URL
- 情緒分析:內建離線分析器,不需要外部 API
- 跨平台:同時支援 Bluesky(AT Protocol)和 Mastodon
- 工作流引擎:宣告式 JSON 管線,支援觸發器和鏈式動作
安裝
npm install -g xactions
xactions login # 儲存你的 auth_token cookie
# 自動產生 Claude Desktop MCP 設定
npx xactions mcp-config --client claude
或手動寫入 claude_desktop_config.json:
{
"mcpServers": {
"xactions": {
"command": "npx",
"args": ["-y", "xactions", "mcp"],
"env": {
"XACTIONS_SESSION_COOKIE": "你的_auth_token"
}
}
}
}
取得 Auth Token
- 前往
x.com - DevTools (F12) → Application → Cookies
- 複製
auth_token的值
限制
只專注 X/Twitter(Bluesky + Mastodon 是次要)
不支援小紅書、Instagram、Reddit
瀏覽器自動化 = 有速率限制(內建 1-3 秒延遲)
第三名:Crawl4AI MCP Server — 萬用備用方案
Repo: GitHub - MaitreyaM/WEB-SCRAPING-MCP: MCP Server leveraging crawl4ai for web scraping and LLM-based content extraction (Markdown, text snippets, smart extraction). Designed for AI agent integration. · GitHub
底層引擎: GitHub - unclecode/crawl4ai: 🚀🤖 Crawl4AI: Open-source LLM Friendly Web Crawler & Scraper. Don't be shy, join here: https://discord.gg/jP8KfhDhyN · GitHub
授權: 開源
語言: Python
為什麼是第三名
填補第一名和第二名的空白——Instagram 和其他沒有專門工具的平台。使用 Crawl4AI(Playwright 爬蟲引擎)加上 LLM 智慧提取——你可以丟任何社群媒體 URL 進去,用自然語言描述要什麼資料,拿回結構化 JSON。
你會得到
scrape_url:爬取任何 URL → 乾淨的 Markdown 輸出extract_text_by_query:在頁面中搜尋特定文字模式smart_extract:LLM 智慧提取——用自然語言描述你要什麼,拿回結構化 JSON- Docker 支援:自包含部署
- 相容:Claude、LangChain、LangGraph、任何 MCP 客戶端
安裝
git clone https://github.com/MaitreyaM/WEB-SCRAPING-MCP.git
cd WEB-SCRAPING-MCP
# Docker(推薦)
docker build -t crawl4ai-mcp-server .
docker run -it --rm -p 8002:8002 --env-file .env crawl4ai-mcp-server
# 或本地 Python
python -m venv venv
source venv/bin/activate
pip install -r requirements.txt
python webcrawl_mcp_server.py
MCP 客戶端連接到:http://127.0.0.1:8002/sse
智慧提取範例
用自然語言指示:
smart_extract https://instagram.com/p/ABC123
"提取:貼文文字、作者帳號、按讚數、留言數、圖片 URL、hashtag。回傳 JSON。"
限制
比 API 工具慢(Playwright 完整瀏覽器渲染)
smart_extract需要 Google Gemini API Key(有免費額度)
沒有社群媒體專用結構化 schema——你自己定義提取規則
需登入才能看的內容(私人 IG 帳號)需要注入 Cookie
建議組合:三者搭配使用
使用者輸入 URL
│
▼
┌─────────────────────────────┐
│ URL 模式路由器 │
├─────────────────────────────┤
│ │
│ x.com / twitter.com │──→ XActions MCP(第二名)
│ │ [最深度的 X/Twitter 提取]
│ xiaohongshu.com │
│ xhslink.com │──→ Agent-Reach(第一名)
│ reddit.com │ [xhs-cli / rdt-cli / yt-dlp]
│ youtube.com │
│ bilibili.com │
│ douyin.com │
│ │
│ instagram.com │
│ tiktok.com │──→ Crawl4AI MCP(第三名)
│ facebook.com │ [萬用備用方案]
│ 其他任何 URL │
│ │
└─────────────────────────────┘
│
▼
統一 JSON 輸出
{ text, media[], metrics, author, date, platform }
快速比較
| 功能 | Agent-Reach | XActions | Crawl4AI MCP |
|---|---|---|---|
| 費用 | 100% 免費 | 100% 免費(人類) | 100% 免費 |
| 平台數 | 9+(X、小紅書、Reddit、YT、B站、抖音、LinkedIn、GitHub、網頁) | X/Twitter + Bluesky + Mastodon | 任何 URL |
| 小紅書 | |||
| X/Twitter 深度 | 基本(搜尋、閱讀) | 深度(51+ 工具、分析、情緒) | |
| 結構化輸出 | 各平台專屬 JSON | 結構化 JSON(30+ 欄位) | LLM 提取 JSON |
| 速度 | 快(CLI 工具) | 快(Cookie 認證) | 慢(瀏覽器渲染) |
| 自架 | |||
| Claude Code 相容 | |||
| OpenClaw 相容 |
下一步
pip install agent-reach && agent-reach install— 一次裝好 9 個平台npm install -g xactions && xactions login— X/Twitter 深度提取docker buildCrawl4AI MCP 處理 Instagram/TikTok/其他 URL- 寫一個路由 Skill/Prompt,自動把 URL 分配到對的工具