Cloudflare SETUP for AI and GEO（Generative Engine Optimization）

Aiko · March 9, 2026, 8:07am

背景：Cloudflare 2025 年 7 月的重大改變

Cloudflare 於 2025 年 7 月 1 日成為第一家預設封鎖 AI 爬蟲的網路基礎架構供應商，他們稱之為「Content Independence Day」。所有新註冊的 Cloudflare 網域現在預設封鎖所有已知的 AI 爬蟲。這代表如果你沒有主動開啟，你的網站對 ChatGPT、Perplexity、Claude 等 AI 搜尋引擎來說是隱形的。

Cloudflare 保護了全球約 20% 的網站，所以這個影響非常巨大。

第一步：理解三種 AI 爬蟲類型

這是最關鍵的概念 — AI 爬蟲不是只有一種，要分清楚才能做精準控管：

1. 訓練爬蟲（Training Crawlers） — 用來收集資料訓練 LLM 模型

GPTBot、ClaudeBot、Google-Extended 等爬蟲會收集內容來訓練底層語言模型。允許這些爬蟲代表你的內容會成為 AI 知識庫的一部分。封鎖它們代表 AI 根本不知道你的存在。

2. 搜尋爬蟲（Search Crawlers） — 用於 AI 搜尋結果

OAI-SearchBot、Claude-SearchBot 等爬蟲專門為搜尋結果擷取內容，驅動 ChatGPT 的搜尋功能和 Claude 的網路搜尋。封鎖這些爬蟲，你的內容就不會出現在使用者向 AI 平台提問時的結果中。

3. 使用者觸發爬蟲（User-triggered Fetchers） — 使用者主動請求時才啟動

ChatGPT-User、Claude-User、Perplexity-User 等爬蟲會在使用者明確要求 AI 讀取某個 URL 時即時擷取頁面。這些是風險最低的爬蟲。

第二步：GEO 策略 — 哪些該放行，哪些該封鎖

對於想做 GEO 的網站，建議策略是：封鎖純訓練用的惡意爬蟲，放行所有與 AI 搜尋/引用相關的爬蟲。

建議放行的爬蟲（GEO 必備）

爬蟲名稱	公司	用途	重要性
OAI-SearchBot	OpenAI	ChatGPT 搜尋索引	必放
ChatGPT-User	OpenAI	使用者即時擷取	必放
GPTBot	OpenAI	模型訓練 + 知識庫	建議放
ClaudeBot	Anthropic	Claude 引用擷取	必放
Claude-SearchBot	Anthropic	Claude 搜尋	必放
PerplexityBot	Perplexity	索引建立	必放
Perplexity-User	Perplexity	使用者觸發擷取	必放
Google-Extended	Google	Gemini AI	建議放
Applebot-Extended	Apple	Apple Intelligence	建議放
Googlebot	Google	傳統搜尋（不受 AI 封鎖影響）	本來就要放
BingBot	Microsoft	Bing/Copilot	本來就要放

建議封鎖的爬蟲

爬蟲名稱	公司	原因
Bytespider	ByteDance	大量爬取，幾乎不回送流量
CCBot	Common Crawl	純訓練資料集，無搜尋引用價值
Meta-ExternalAgent	Meta	訓練用途為主
未驗證的 AI 爬蟲	不明	偽裝或行為異常的爬蟲

OpenAI 的訓練資料爬蟲可以被封鎖而不影響你在 ChatGPT 中被引用的能力。你也可以安全地封鎖 Anthropic 和 Common Crawl 的訓練資料收集而不影響被聊天機器人引用。但如果你想讓品牌知識更深入融入模型，建議還是放行 GPTBot。

第三步：Cloudflare 設定方式

方法 A：AI Crawl Control（推薦，精細控管）

AI Crawl Control 讓你對每個 AI 爬蟲採取特定動作。操作路徑：

登入 Cloudflare Dashboard → 選擇你的網域
前往 AI Crawl Control
進入 Crawlers 分頁
你可以用篩選器縮小範圍：依名稱、營運商、類別（AI crawler、AI assistant、archiver）篩選
對每個爬蟲選擇 Allow（放行）、Block（封鎖）或 Charge（收費，beta）

這是最推薦的方式，因為可以逐一控制每個爬蟲。

方法 B：Block AI Bots 開關（簡單但粗暴）

在 Cloudflare Dashboard 前往 Security > Settings，找到 Block AI bots，有三個選項：

Do not block (off)：不封鎖任何 AI 爬蟲
Only block on hostnames with ads：只在有廣告的頁面封鎖
Block on all pages：全站封鎖

Cloudflare 的 AI 封鎖規則特別排除了 Googlebot 和 BingBot 等傳統搜尋引擎爬蟲，你的 SEO 不會受到影響。

如果你要做 GEO，不要開啟全站 Block AI Bots，改用 AI Crawl Control 做精細控管。

方法 C：WAF 自訂規則（進階）

WAF 自訂規則讓你建立精確的封鎖邏輯。你可以封鎖大部分 AI 爬蟲，同時允許特定爬蟲。需要至少 Pro 方案。

注意：AI Crawl Control 使用 WAF 自訂規則來封鎖爬蟲，WAF 自訂規則在 Pay Per Crawl 之前執行。所以如果你同時使用兩者，要注意優先級順序。

第四步：robots.txt 配置

即使 Cloudflare 層面已設定，robots.txt 仍然是重要的信號。robots.txt 是榮譽制度，沒有任何東西強制爬蟲遵守，所以 Cloudflare 的基礎架構層封鎖是更可靠的防線。但兩者都要做。

建議的 robots.txt 配置（GEO 友善版）：

# === 傳統搜尋引擎（必須放行）===
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# === OpenAI（AI 搜尋 + 引用）===
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: GPTBot
Allow: /
# 如果不想被訓練但要被搜尋，改為：
# User-agent: GPTBot
# Disallow: /

# === Anthropic（Claude）===
User-agent: ClaudeBot
Allow: /

User-agent: claude-web
Allow: /

# === Perplexity ===
User-agent: PerplexityBot
Allow: /

User-agent: Perplexity-User
Allow: /

# === Google Gemini ===
User-agent: Google-Extended
Allow: /

# === Apple Intelligence ===
User-agent: Applebot
Allow: /

User-agent: Applebot-Extended
Allow: /

# === 封鎖純訓練 / 低價值爬蟲 ===
User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: meta-externalagent
Disallow: /

第五步：進階策略 — AI Labyrinth

AI Labyrinth 是 Cloudflare 針對不守規矩爬蟲的解方。這個功能會在頁面中加入隱形連結，為未經授權的爬蟲建立迷宮。人類訪客看不到這些連結，遵守 robots.txt 的爬蟲會忽略它們，但無視規則的爬蟲會被困在無限循環的假頁面中。這些連結使用 nofollow 標籤，不會影響 SEO。

第六步：監控與驗證

Cloudflare AI Crawl Control Dashboard：監控哪些 AI 服務正在存取你的內容，追蹤爬蟲活動和請求模式
伺服器日誌分析：用 grep 檢查哪些 AI 爬蟲在打你的網站
AI 搜尋測試：直接在 ChatGPT、Perplexity、Claude 中搜尋你的品牌/產品，看是否被引用
GA4 AI 流量追蹤：在 GA4 設定自訂 Channel，用 regex 比對 chatgpt.com、perplexity.ai、claude.ai 等來源

重點摘要

對於你的客戶（JOY COLORi、ALUXE、Neteon 等 Shopify 站點），建議策略：

不要使用 Cloudflare 的全站 Block AI Bots — 這會讓你在 AI 搜尋中消失
使用 AI Crawl Control 逐一設定 — 放行搜尋相關爬蟲，封鎖純訓練和低價值爬蟲
同步更新 robots.txt — 雙重保障
開啟 AI Labyrinth — 對付不守規矩的爬蟲
定期監控 — AI 爬蟲生態變化快，至少每季檢查一次

截至 2025 年 6 月，AI 搜尋平台向網站發送了 11.3 億次推薦訪問，年增 357%。這個流量管道正在快速成長，做好 GEO 的技術基礎設施配置是第一步。