背景:Cloudflare 2025 年 7 月的重大改變
Cloudflare 於 2025 年 7 月 1 日成為第一家預設封鎖 AI 爬蟲的網路基礎架構供應商,他們稱之為「Content Independence Day」。所有新註冊的 Cloudflare 網域現在預設封鎖所有已知的 AI 爬蟲。這代表如果你沒有主動開啟,你的網站對 ChatGPT、Perplexity、Claude 等 AI 搜尋引擎來說是隱形的。
Cloudflare 保護了全球約 20% 的網站,所以這個影響非常巨大。
第一步:理解三種 AI 爬蟲類型
這是最關鍵的概念 — AI 爬蟲不是只有一種,要分清楚才能做精準控管:
1. 訓練爬蟲(Training Crawlers) — 用來收集資料訓練 LLM 模型
GPTBot、ClaudeBot、Google-Extended 等爬蟲會收集內容來訓練底層語言模型。允許這些爬蟲代表你的內容會成為 AI 知識庫的一部分。封鎖它們代表 AI 根本不知道你的存在。
2. 搜尋爬蟲(Search Crawlers) — 用於 AI 搜尋結果
OAI-SearchBot、Claude-SearchBot 等爬蟲專門為搜尋結果擷取內容,驅動 ChatGPT 的搜尋功能和 Claude 的網路搜尋。封鎖這些爬蟲,你的內容就不會出現在使用者向 AI 平台提問時的結果中。
3. 使用者觸發爬蟲(User-triggered Fetchers) — 使用者主動請求時才啟動
ChatGPT-User、Claude-User、Perplexity-User 等爬蟲會在使用者明確要求 AI 讀取某個 URL 時即時擷取頁面。這些是風險最低的爬蟲。
第二步:GEO 策略 — 哪些該放行,哪些該封鎖
對於想做 GEO 的網站,建議策略是:封鎖純訓練用的惡意爬蟲,放行所有與 AI 搜尋/引用相關的爬蟲。
建議放行的爬蟲(GEO 必備)
| 爬蟲名稱 | 公司 | 用途 | 重要性 |
|---|---|---|---|
| OAI-SearchBot | OpenAI | ChatGPT 搜尋索引 | |
| ChatGPT-User | OpenAI | 使用者即時擷取 | |
| GPTBot | OpenAI | 模型訓練 + 知識庫 | |
| ClaudeBot | Anthropic | Claude 引用擷取 | |
| Claude-SearchBot | Anthropic | Claude 搜尋 | |
| PerplexityBot | Perplexity | 索引建立 | |
| Perplexity-User | Perplexity | 使用者觸發擷取 | |
| Google-Extended | Gemini AI | ||
| Applebot-Extended | Apple | Apple Intelligence | |
| Googlebot | 傳統搜尋(不受 AI 封鎖影響) | 本來就要放 | |
| BingBot | Microsoft | Bing/Copilot | 本來就要放 |
建議封鎖的爬蟲
| 爬蟲名稱 | 公司 | 原因 |
|---|---|---|
| Bytespider | ByteDance | 大量爬取,幾乎不回送流量 |
| CCBot | Common Crawl | 純訓練資料集,無搜尋引用價值 |
| Meta-ExternalAgent | Meta | 訓練用途為主 |
| 未驗證的 AI 爬蟲 | 不明 | 偽裝或行為異常的爬蟲 |
OpenAI 的訓練資料爬蟲可以被封鎖而不影響你在 ChatGPT 中被引用的能力。你也可以安全地封鎖 Anthropic 和 Common Crawl 的訓練資料收集而不影響被聊天機器人引用。但如果你想讓品牌知識更深入融入模型,建議還是放行 GPTBot。
第三步:Cloudflare 設定方式
方法 A:AI Crawl Control(推薦,精細控管)
AI Crawl Control 讓你對每個 AI 爬蟲採取特定動作。操作路徑:
- 登入 Cloudflare Dashboard → 選擇你的網域
- 前往 AI Crawl Control
- 進入 Crawlers 分頁
- 你可以用篩選器縮小範圍:依名稱、營運商、類別(AI crawler、AI assistant、archiver)篩選
- 對每個爬蟲選擇 Allow(放行)、Block(封鎖)或 Charge(收費,beta)
這是最推薦的方式,因為可以逐一控制每個爬蟲。
方法 B:Block AI Bots 開關(簡單但粗暴)
在 Cloudflare Dashboard 前往 Security > Settings,找到 Block AI bots,有三個選項:
- Do not block (off):不封鎖任何 AI 爬蟲
- Only block on hostnames with ads:只在有廣告的頁面封鎖
- Block on all pages:全站封鎖
Cloudflare 的 AI 封鎖規則特別排除了 Googlebot 和 BingBot 等傳統搜尋引擎爬蟲,你的 SEO 不會受到影響。
如果你要做 GEO,不要開啟全站 Block AI Bots,改用 AI Crawl Control 做精細控管。
方法 C:WAF 自訂規則(進階)
WAF 自訂規則讓你建立精確的封鎖邏輯。你可以封鎖大部分 AI 爬蟲,同時允許特定爬蟲。需要至少 Pro 方案。
注意:AI Crawl Control 使用 WAF 自訂規則來封鎖爬蟲,WAF 自訂規則在 Pay Per Crawl 之前執行。所以如果你同時使用兩者,要注意優先級順序。
第四步:robots.txt 配置
即使 Cloudflare 層面已設定,robots.txt 仍然是重要的信號。robots.txt 是榮譽制度,沒有任何東西強制爬蟲遵守,所以 Cloudflare 的基礎架構層封鎖是更可靠的防線。但兩者都要做。
建議的 robots.txt 配置(GEO 友善版):
# === 傳統搜尋引擎(必須放行)===
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# === OpenAI(AI 搜尋 + 引用)===
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: GPTBot
Allow: /
# 如果不想被訓練但要被搜尋,改為:
# User-agent: GPTBot
# Disallow: /
# === Anthropic(Claude)===
User-agent: ClaudeBot
Allow: /
User-agent: claude-web
Allow: /
# === Perplexity ===
User-agent: PerplexityBot
Allow: /
User-agent: Perplexity-User
Allow: /
# === Google Gemini ===
User-agent: Google-Extended
Allow: /
# === Apple Intelligence ===
User-agent: Applebot
Allow: /
User-agent: Applebot-Extended
Allow: /
# === 封鎖純訓練 / 低價值爬蟲 ===
User-agent: Bytespider
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: meta-externalagent
Disallow: /
第五步:進階策略 — AI Labyrinth
AI Labyrinth 是 Cloudflare 針對不守規矩爬蟲的解方。這個功能會在頁面中加入隱形連結,為未經授權的爬蟲建立迷宮。人類訪客看不到這些連結,遵守 robots.txt 的爬蟲會忽略它們,但無視規則的爬蟲會被困在無限循環的假頁面中。這些連結使用 nofollow 標籤,不會影響 SEO。
第六步:監控與驗證
- Cloudflare AI Crawl Control Dashboard:監控哪些 AI 服務正在存取你的內容,追蹤爬蟲活動和請求模式
- 伺服器日誌分析:用 grep 檢查哪些 AI 爬蟲在打你的網站
- AI 搜尋測試:直接在 ChatGPT、Perplexity、Claude 中搜尋你的品牌/產品,看是否被引用
- GA4 AI 流量追蹤:在 GA4 設定自訂 Channel,用 regex 比對 chatgpt.com、perplexity.ai、claude.ai 等來源
重點摘要
對於你的客戶(JOY COLORi、ALUXE、Neteon 等 Shopify 站點),建議策略:
- 不要使用 Cloudflare 的全站 Block AI Bots — 這會讓你在 AI 搜尋中消失
- 使用 AI Crawl Control 逐一設定 — 放行搜尋相關爬蟲,封鎖純訓練和低價值爬蟲
- 同步更新 robots.txt — 雙重保障
- 開啟 AI Labyrinth — 對付不守規矩的爬蟲
- 定期監控 — AI 爬蟲生態變化快,至少每季檢查一次
截至 2025 年 6 月,AI 搜尋平台向網站發送了 11.3 億次推薦訪問,年增 357%。這個流量管道正在快速成長,做好 GEO 的技術基礎設施配置是第一步。