頂尖 AI 網路爬蟲與使用者代理程式名單

AI 搜尋正在改變使用者如何找到我們的內容。像 ChatGPT、Claude、Perplexity 這些工具正成為網站流量的重要來源 (根據 Semrush 的報告,去年下半年從 ChatGPT 獲得流量的網域增加了 300%)。

需要了解的主要 AI 網路爬蟲清單

以下是主要 AI 網路爬蟲與其使用者代理 (User Agent):

AI 爬蟲名稱 作用 使用者代理 (User Agent)
GPTBot 收集文字數據,用於改進 ChatGPT 語言模型 Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbot)
ChatGPT-User 處理 ChatGPT 中使用者互動提示 Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot)
OAI-SearchBot 索引網路內容,促進 ChatGPT 研究檢索 Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot)
Anthropic AI Bot 為 Anthropic AI 開發收集資訊 Mozilla/5.0 (compatible; anthropic-ai/1.0; +http://www.anthropic.com/bot.html)
ClaudeBot 為基於對話的 AI 處理和擷取網站資料 Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ClaudeBot/1.0; +claudebot@anthropic.com)
Claude Web 收集網站資料,精煉 Anthropic 網頁模型 Mozilla/5.0 (compatible; claude-web/1.0; +http://www.anthropic.com/bot.html)
Google-Extended 為 Google 的 AI 專案收集數據 Mozilla/5.0 (compatible; Google-Extended/1.0; +http://www.google.com/bot.html)
Applebot / Applebot-Extended 改善 Siri 與 Spotlight 搜尋結果 Mozilla/5.0 (compatible; Applebot/1.0; +http://www.apple.com/bot.html)
Mozilla/5.0 (compatible; Applebot-Extended/1.0; +http://www.apple.com/bot.html)
BingBot 為微軟 Bing 搜尋引擎索引網站 Mozilla/5.0 (compatible; BingBot/1.0; +http://www.bing.com/bot.html)
LinkedInBot 為 LinkedIn 平台功能蒐集網站資料 LinkedInBot/1.0 (compatible; Mozilla/5.0; Jakarta Commons-HttpClient/3.1 +http://www.linkedin.com)
Amazonbot 為亞馬遜網路服務收集網站數據 Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
Bytespider (ByteDance/TikTok) 可用於支援 TikTok 內容探索 Mozilla/5.0 (compatible; Bytespider/1.0; +http://www.bytedance.com/bot.html)
PerplexityBot 支援 Perplexity AI 搜尋功能 Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)
YouBot 提供 You.com 上 AI 型搜尋功能 Mozilla/5.0 (compatible; YouBot (+http://www.you.com))
DuckAssistBot 為 DuckDuckGo 提供 AI 回答功能 Mozilla/5.0 (compatible; DuckAssistBot/1.0; +http://www.duckduckgo.com/bot.html)
AI2Bot (Allen Institute) 為美國艾倫研究所 AI 研究爬網站 Mozilla/5.0 (compatible; AI2Bot/1.0; +http://www.allenai.org/crawler)
CCBot (Common Crawl) 聯合公開網頁數據進行存檔 Mozilla/5.0 (compatible; CCBot/1.0; +http://www.commoncrawl.org/bot.html)
Cohere AI 收集文字樣本改進 Cohere 語言模型 Mozilla/5.0 (compatible; cohere-ai/1.0; +http://www.cohere.ai/bot.html)
Omgili Bot 索引討論數據進行研究和分析 Mozilla/5.0 (compatible; omgili/1.0; +http://www.omgili.com/bot.html)
Timpi 分散式爬取數據用於 AI 應用 Timpibot/0.8 (+http://www.timpi.io)
DiffBot 挖掘網頁數據,以提供結構化資訊給 AI 系統 Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.1.2) Gecko/20090729 Firefox/3.5.2 (.NET CLR 3.5.30729; Diffbot/0.1; +http://www.diffbot.com)

robots.txt 設定範例

以下 robots.txt 設定允許以上 AI 爬蟲訪問內容:

User-agent: AI2Bot
Allow: /

User-agent: Amazonbot
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: claude-web
Allow: /

User-agent: Applebot
Allow: /

User-agent: Applebot-Extended
Allow: /

User-agent: BingBot
Allow: /

User-agent: Bytespider
Allow: /

User-agent: CCBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: cohere-ai
Allow: /

User-agent: DiffBot
Allow: /

User-agent: DuckAssistBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: LinkedInBot
Allow: /

User-agent: omgili
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Timpibot
Allow: /

User-agent: YouBot
Allow: /

提醒事項

即使 robots.txt 設置正確,你的網路伺服器或防火牆可能仍然會阻擋 AI 爬蟲的訪問。建議使用 Knowatoa 的 AI 搜尋控制台工具來確認網站對 AI 爬蟲的可存取性,此平台能檢測多達 24 種不同 AI 使用者代理的訪問狀態,也可點選使用 Merkle 的 robots.txt 測試工具 來單獨審查各使用者代理。

隨著 AI 搜尋市場發展,此列表將持續增加,若有遺漏可透過 LinkedIn 留言通知我。