Cloudflare SETUP for AI and GEO(Generative Engine Optimization)

,

背景:Cloudflare 2025 年 7 月的重大改變

Cloudflare 於 2025 年 7 月 1 日成為第一家預設封鎖 AI 爬蟲的網路基礎架構供應商,他們稱之為「Content Independence Day」。所有新註冊的 Cloudflare 網域現在預設封鎖所有已知的 AI 爬蟲。這代表如果你沒有主動開啟,你的網站對 ChatGPT、Perplexity、Claude 等 AI 搜尋引擎來說是隱形的。

Cloudflare 保護了全球約 20% 的網站,所以這個影響非常巨大。


第一步:理解三種 AI 爬蟲類型

這是最關鍵的概念 — AI 爬蟲不是只有一種,要分清楚才能做精準控管:

1. 訓練爬蟲(Training Crawlers) — 用來收集資料訓練 LLM 模型

GPTBot、ClaudeBot、Google-Extended 等爬蟲會收集內容來訓練底層語言模型。允許這些爬蟲代表你的內容會成為 AI 知識庫的一部分。封鎖它們代表 AI 根本不知道你的存在。

2. 搜尋爬蟲(Search Crawlers) — 用於 AI 搜尋結果

OAI-SearchBot、Claude-SearchBot 等爬蟲專門為搜尋結果擷取內容,驅動 ChatGPT 的搜尋功能和 Claude 的網路搜尋。封鎖這些爬蟲,你的內容就不會出現在使用者向 AI 平台提問時的結果中。

3. 使用者觸發爬蟲(User-triggered Fetchers) — 使用者主動請求時才啟動

ChatGPT-User、Claude-User、Perplexity-User 等爬蟲會在使用者明確要求 AI 讀取某個 URL 時即時擷取頁面。這些是風險最低的爬蟲。


第二步:GEO 策略 — 哪些該放行,哪些該封鎖

對於想做 GEO 的網站,建議策略是:封鎖純訓練用的惡意爬蟲,放行所有與 AI 搜尋/引用相關的爬蟲

建議放行的爬蟲(GEO 必備)

爬蟲名稱 公司 用途 重要性
OAI-SearchBot OpenAI ChatGPT 搜尋索引 :star::star::star: 必放
ChatGPT-User OpenAI 使用者即時擷取 :star::star::star: 必放
GPTBot OpenAI 模型訓練 + 知識庫 :star::star: 建議放
ClaudeBot Anthropic Claude 引用擷取 :star::star::star: 必放
Claude-SearchBot Anthropic Claude 搜尋 :star::star::star: 必放
PerplexityBot Perplexity 索引建立 :star::star::star: 必放
Perplexity-User Perplexity 使用者觸發擷取 :star::star::star: 必放
Google-Extended Google Gemini AI :star::star: 建議放
Applebot-Extended Apple Apple Intelligence :star::star: 建議放
Googlebot Google 傳統搜尋(不受 AI 封鎖影響) 本來就要放
BingBot Microsoft Bing/Copilot 本來就要放

建議封鎖的爬蟲

爬蟲名稱 公司 原因
Bytespider ByteDance 大量爬取,幾乎不回送流量
CCBot Common Crawl 純訓練資料集,無搜尋引用價值
Meta-ExternalAgent Meta 訓練用途為主
未驗證的 AI 爬蟲 不明 偽裝或行為異常的爬蟲

OpenAI 的訓練資料爬蟲可以被封鎖而不影響你在 ChatGPT 中被引用的能力。你也可以安全地封鎖 Anthropic 和 Common Crawl 的訓練資料收集而不影響被聊天機器人引用。但如果你想讓品牌知識更深入融入模型,建議還是放行 GPTBot。


第三步:Cloudflare 設定方式

方法 A:AI Crawl Control(推薦,精細控管)

AI Crawl Control 讓你對每個 AI 爬蟲採取特定動作。操作路徑:

  1. 登入 Cloudflare Dashboard → 選擇你的網域
  2. 前往 AI Crawl Control
  3. 進入 Crawlers 分頁
  4. 你可以用篩選器縮小範圍:依名稱、營運商、類別(AI crawler、AI assistant、archiver)篩選
  5. 對每個爬蟲選擇 Allow(放行)、Block(封鎖)或 Charge(收費,beta)

這是最推薦的方式,因為可以逐一控制每個爬蟲。

方法 B:Block AI Bots 開關(簡單但粗暴)

在 Cloudflare Dashboard 前往 Security > Settings,找到 Block AI bots,有三個選項:

  • Do not block (off):不封鎖任何 AI 爬蟲
  • Only block on hostnames with ads:只在有廣告的頁面封鎖
  • Block on all pages:全站封鎖

Cloudflare 的 AI 封鎖規則特別排除了 Googlebot 和 BingBot 等傳統搜尋引擎爬蟲,你的 SEO 不會受到影響。

如果你要做 GEO,不要開啟全站 Block AI Bots,改用 AI Crawl Control 做精細控管。

方法 C:WAF 自訂規則(進階)

WAF 自訂規則讓你建立精確的封鎖邏輯。你可以封鎖大部分 AI 爬蟲,同時允許特定爬蟲。需要至少 Pro 方案。

注意:AI Crawl Control 使用 WAF 自訂規則來封鎖爬蟲,WAF 自訂規則在 Pay Per Crawl 之前執行。所以如果你同時使用兩者,要注意優先級順序。


第四步:robots.txt 配置

即使 Cloudflare 層面已設定,robots.txt 仍然是重要的信號。robots.txt 是榮譽制度,沒有任何東西強制爬蟲遵守,所以 Cloudflare 的基礎架構層封鎖是更可靠的防線。但兩者都要做。

建議的 robots.txt 配置(GEO 友善版):

# === 傳統搜尋引擎(必須放行)===
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# === OpenAI(AI 搜尋 + 引用)===
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: GPTBot
Allow: /
# 如果不想被訓練但要被搜尋,改為:
# User-agent: GPTBot
# Disallow: /

# === Anthropic(Claude)===
User-agent: ClaudeBot
Allow: /

User-agent: claude-web
Allow: /

# === Perplexity ===
User-agent: PerplexityBot
Allow: /

User-agent: Perplexity-User
Allow: /

# === Google Gemini ===
User-agent: Google-Extended
Allow: /

# === Apple Intelligence ===
User-agent: Applebot
Allow: /

User-agent: Applebot-Extended
Allow: /

# === 封鎖純訓練 / 低價值爬蟲 ===
User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: meta-externalagent
Disallow: /

第五步:進階策略 — AI Labyrinth

AI Labyrinth 是 Cloudflare 針對不守規矩爬蟲的解方。這個功能會在頁面中加入隱形連結,為未經授權的爬蟲建立迷宮。人類訪客看不到這些連結,遵守 robots.txt 的爬蟲會忽略它們,但無視規則的爬蟲會被困在無限循環的假頁面中。這些連結使用 nofollow 標籤,不會影響 SEO。


第六步:監控與驗證

  1. Cloudflare AI Crawl Control Dashboard:監控哪些 AI 服務正在存取你的內容,追蹤爬蟲活動和請求模式
  2. 伺服器日誌分析:用 grep 檢查哪些 AI 爬蟲在打你的網站
  3. AI 搜尋測試:直接在 ChatGPT、Perplexity、Claude 中搜尋你的品牌/產品,看是否被引用
  4. GA4 AI 流量追蹤:在 GA4 設定自訂 Channel,用 regex 比對 chatgpt.com、perplexity.ai、claude.ai 等來源

重點摘要

對於你的客戶(JOY COLORi、ALUXE、Neteon 等 Shopify 站點),建議策略:

  1. 不要使用 Cloudflare 的全站 Block AI Bots — 這會讓你在 AI 搜尋中消失
  2. 使用 AI Crawl Control 逐一設定 — 放行搜尋相關爬蟲,封鎖純訓練和低價值爬蟲
  3. 同步更新 robots.txt — 雙重保障
  4. 開啟 AI Labyrinth — 對付不守規矩的爬蟲
  5. 定期監控 — AI 爬蟲生態變化快,至少每季檢查一次

截至 2025 年 6 月,AI 搜尋平台向網站發送了 11.3 億次推薦訪問,年增 357%。這個流量管道正在快速成長,做好 GEO 的技術基礎設施配置是第一步。