AIクローラーのrobots.txt設定とAI検索引用戦略【2026年版】
GPTBot・ClaudeBot・PerplexityBotなど主要AIクローラーのrobots.txt設定を徹底解説。学習用と検索引用用を分けて制御し、AI検索での引用獲得を最大化する実践テンプレートを公開します。
目次(46項目)
- はじめに
- AIクローラーの2分類:学習用と検索引用用
- 学習用クローラー
- 検索引用用クローラー
- 2026年の標準設定テンプレート
- バランス型(メディア・ブログ・SaaS向け)
- 全許可型(オープンソース・コミュニティサイト向け)
- 全ブロック型(プレミアムコンテンツ・有料会員サイト向け)
- パス別制御型(無料+有料コンテンツ混在サイト向け)
- AIクローラーのrobots.txt実装で注意すべき3つの落とし穴
- 落とし穴1:ワイルドカードDisallowが個別Allowを上書きする
- 落とし穴2:User-agentの大文字・小文字の扱い
- 落とし穴3:WAFがrobots.txtより先にクロールをブロック
- 海外サイトにおける設定事例と実態調査
- Cloudflare調査(2025年)
- アユダンテによる国内調査(2025年10月)
- サイトタイプ別の推奨設定マトリクス
- robots.txtとllms.txtの役割分担
- 設定後の検証方法
- ステップ1:robots.txtの構文確認
- ステップ2:サーバーアクセスログの確認
- ステップ3:AI検索での引用状況の確認
- ステップ4:GA4での参照元トラッキング
- インデックスされるための本文側の施策
- 一段落一論点の構造
- 数値・固有名詞・出典の明示
- 構造化データ(JSON-LD)の実装
- 海外ローカライズと多言語サイトの注意点
- 言語別のAIクローラーアクセス傾向
- hreflangとrobots.txtの整合
- サブドメイン構成の場合
- AIクローラーと著作権・AI法制の動向
- 欧州AI法(EU AI Act)
- 日本の著作権法改正
- ハルシネーション対策としてのrobots.txt
- よくある質問
- Q1. robots.txtでAIクローラーをブロックすると検索順位は下がりますか?
- Q2. PerplexityBotを許可するとどんなメリットがありますか?
- Q3. ClaudeBot(Anthropic)はブロックしてもClaude.aiから引用されますか?
- Q4. Bytespiderはrobots.txtを無視すると聞きましたが本当ですか?
- Q5. robots.txtの変更はどれくらいで反映されますか?
- Q6. OAI-SearchBotとGPTBotの違いは何ですか?
- Q7. 全ページではなく特定ページだけAIクローラーに許可する方法は?
- Q8. llms.txtとrobots.txtはどちらを先に設定すべきですか?
- 関連用語
- 関連記事
AIクローラーのrobots.txt設定とAI検索引用戦略【2026年版】
この記事の結論: AIクローラーには「学習用」と「検索引用用」の2種類があり、robots.txtでそれぞれ別々に制御できます。引用を増やしたいなら検索引用用のみ許可し、学習用はブロックするのが2026年の標準戦略です。
最終更新日: 2026年6月6日
はじめに
「robots.txtで全AIクローラーをブロックしたらAI検索に出なくなった」「逆に全部許可したら学習データに使われてしまった」という悩みを抱えるサイト運営者が増えています。
問題の根本は、AIクローラーを一律に扱おうとすることにあります。2026年現在、OpenAI・Anthropic・Googleはいずれも「学習用クローラー」と「検索引用用クローラー」を分離して提供しています。この違いを理解せずにrobots.txtを設定すると、ブロックしたいものは通り、引用されたいものは弾かれるという逆効果が起きます。
本記事では、AIクローラーの分類から始め、robots.txtの具体的な設定テンプレート、海外サイトの設定事例まで体系的に整理します。SEOとLLMOを両立させるrobots.txt設計を、実装コードとともに解説します。
→ 詳しくはAI検索最適化ガイド
AIクローラーの2分類:学習用と検索引用用
まず、現在流通しているAIクローラーを「学習用」と「検索引用用」の2軸で整理します。この分類が設定の根拠になります。
学習用クローラー
モデルの訓練データとして収集するクローラーです。あなたのコンテンツが将来のモデルに「記憶」される可能性があります。
| User-agent | 運営元 | 主な用途 |
|---|---|---|
GPTBot | OpenAI | GPTモデルの学習データ収集 |
Google-Extended | Gemini・Bard向け学習データ | |
ClaudeBot | Anthropic | Claudeモデルの学習データ |
CCBot | Common Crawl | オープンデータセット構築 |
Bytespider | ByteDance | TikTok系AI学習データ |
FacebookBot | Meta | Llama等Metaモデル学習用 |
Meta-ExternalAgent | Meta | Meta AIの学習・推論用(2026年3月から急増) |
Applebot-Extended | Apple | Apple Intelligence向け |
cohere-ai | Cohere | Command系モデル学習用 |
検索引用用クローラー
リアルタイムでコンテンツを取得し、AI検索の回答生成や引用ソースとして使うクローラーです。許可するとAI検索の「引用元」として表示される機会が得られます。
| User-agent | 運営元 | 主な用途 |
|---|---|---|
OAI-SearchBot | OpenAI | ChatGPT Searchのインデックス構築 |
ChatGPT-User | OpenAI | ChatGPTのオンデマンド取得 |
Claude-Web | Anthropic | Claude.aiでのリアルタイム参照 |
anthropic-ai | Anthropic | Anthropic製品の引用ソース取得 |
PerplexityBot | Perplexity | Perplexityの引用元クロール |
Perplexity-User | Perplexity | Perplexityのオンデマンド取得 |
YouBot | You.com | You.com AI検索の引用 |
Amazonbot | Amazon | Alexa・Amazonサービス向け |
ポイント: Anthropicは2025年に
ClaudeBot(学習用)とClaude-Web(検索引用用)を分離しました。OpenAIもGPTBot(学習)とOAI-SearchBot(検索)を区別しています。同じ会社のクローラーでも目的が異なります。
→ 詳しくはSEO完全ガイド
2026年の標準設定テンプレート
戦略の基本は「学習用ブロック・検索引用用許可」です。以下が2026年時点での推奨テンプレートです。
バランス型(メディア・ブログ・SaaS向け)
# 全クローラーのデフォルト
User-agent: *
Allow: /
# ===== 学習用クローラー:ブロック =====
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: FacebookBot
Disallow: /
User-agent: Meta-ExternalAgent
Disallow: /
User-agent: Applebot-Extended
Disallow: /
# ===== 検索引用用クローラー:明示的に許可 =====
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: Claude-Web
Allow: /
User-agent: anthropic-ai
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Perplexity-User
Allow: /
Sitemap: https://example.com/sitemap.xml
全許可型(オープンソース・コミュニティサイト向け)
コンテンツの二次利用を歓迎するサイト向けです。引用機会を最大化できますが、学習データとしても使われます。
User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml
全ブロック型(プレミアムコンテンツ・有料会員サイト向け)
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: Claude-Web
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml
パス別制御型(無料+有料コンテンツ混在サイト向け)
# 有料会員エリアはすべてのAIクローラーをブロック
User-agent: GPTBot
Disallow: /premium/
Disallow: /members/
User-agent: OAI-SearchBot
Disallow: /premium/
Disallow: /members/
Allow: /
User-agent: ChatGPT-User
Disallow: /premium/
Disallow: /members/
Allow: /
User-agent: PerplexityBot
Disallow: /premium/
Disallow: /members/
Allow: /
User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml
AIクローラーのrobots.txt実装で注意すべき3つの落とし穴
設定を間違えると「許可しているつもりがブロックされている」「ブロックしているつもりが素通りされている」という状態になります。
落とし穴1:ワイルドカードDisallowが個別Allowを上書きする
# NG パターン
User-agent: *
Disallow: /
User-agent: OAI-SearchBot
Allow: / ← これは機能しない場合がある
*(全クローラー)でDisallow: /を指定した後に特定のクローラーだけAllowしようとしても、AIクローラーによっては*の全体ルールを優先して解釈します。全ブロック後の個別許可は、クローラーの実装依存で動作が不安定になるため、全許可をベースにして例外的にブロックするアプローチが安全です。
落とし穴2:User-agentの大文字・小文字の扱い
User-agent: gptbot ← 小文字
User-agent: GPTBot ← 公式の表記
# サーバーやクローラーによってはどちらか一方しか認識しない
Webサーバーがケースセンシティブなマッチングをしている場合、公式仕様と異なる表記のルールは無視されます。常に公式ドキュメントに記載されている表記(主に大文字始まり)に合わせます。
落とし穴3:WAFがrobots.txtより先にクロールをブロック
robots.txtで許可していても、WAF(Webアプリケーションファイアウォール)やCDNのボット対策機能がAIクローラーをブロックしている場合があります。Cloudflare・Akamai・AWS CloudFrontなどのセキュリティ設定で「Unknown bot」として遮断されているケースが実務では多く報告されています。アクセスログを確認してもAIクローラーが来ていない場合は、WAF側の設定を確認します。
海外サイトにおける設定事例と実態調査
Cloudflare調査(2025年)
Cloudflareが2025年に実施したグローバル調査では、AIクローラーはrobots.txtで最もブロックされているUser-agentグループになっています。GPTBot・ClaudeBot・CCBotへの完全ブロック率が特に高く、GooglebotやBingbotは部分ブロックが中心という対照的な状況が確認されました。
この傾向は日本よりも欧米で顕著で、欧州の報道メディアや出版社はGDPR等の著作権保護意識から学習用クローラーを積極的にブロックする一方、検索引用用は許可するという「分離戦略」を採用するケースが増加しています。
アユダンテによる国内調査(2025年10月)
国内のSEO専門企業アユダンテが実施したアクセスログ分析では、次の事実が確認されています。
- Bytespiderが最も高頻度でアクセスし、小規模サイトでも1日300リクエスト以上を記録
- 学習用クローラーは古い安定コンテンツを優先、検索引用用クローラーは最新コンテンツを優先してアクセス
- robots.txtでブロック設定後、AIによる引用はほぼ即座に停止(キャッシュ由来の遅延が数時間〜2日程度)
- 例外: OAI-SearchBotはブロック期間中もアクセスを継続するケースがあり、OpenAI公式ドキュメントとの矛盾が指摘された
- Bytespiderはrobots.txtを無視し、IPブロックも困難という報告が複数確認された
重要な認識: robots.txtは「お願い」であり「ファイアウォール」ではありません。ルールを守る誠実なボットには有効ですが、悪意ある収集ボットは無視します。本当に守りたいコンテンツはサーバー側の認証で保護します。
サイトタイプ別の推奨設定マトリクス
| サイトタイプ | 学習用クローラー | 検索引用用クローラー | 理由 |
|---|---|---|---|
| ニュース・報道 | Disallow | Allow | 著作権保護+引用流入確保 |
| 技術ブログ・メディア | Disallow | Allow | 知財保護+AI検索での認知拡大 |
| BtoB SaaS | Disallow | Allow | ドキュメントは全許可、アプリはブロック |
| ECサイト | Allow(商品ページ) | Allow | ブランド露出最大化 |
| 有料会員サービス | Disallow(全体) | Disallow(会員エリア) | コンテンツ資産の保護 |
| 個人ブログ | Allow | Allow | 露出最大化が目的 |
| 学術・公的機関 | Allow | Allow | 公共性のある情報は広く流通を |
robots.txtとllms.txtの役割分担
robots.txtとllms.txtは混同されがちですが、担う役割がまったく異なります。
| ファイル | 問いへの回答 | 主な読者 | 強制力 |
|---|---|---|---|
| robots.txt | ここをクロールしていいか? | 全クローラー | あり(準拠ボットのみ) |
| sitemap.xml | サイトに何ページある? | 検索エンジン | なし(推奨) |
| llms.txt | サイトの主要コンテンツは何か? | LLM・AIエージェント | なし(案内板) |
3つは競合せず、補完関係にあります。robots.txtでアクセス制御を定め、llms.txtでコンテキストを提供するという二段構えが、AI検索での引用を安定させる現時点での最善策です。
→ 詳しくはLLMOとは?AI検索時代の新SEO【完全ガイド】
設定後の検証方法
設定して終わりではなく、実際にAIクローラーが意図通りに動いているかを確認します。
ステップ1:robots.txtの構文確認
Google Search Consoleの「robots.txtテスター」で構文エラーを確認します。ただしAIクローラーの解釈はGooglebotと異なる場合があるため、あくまで構文の確認に留めます。
ステップ2:サーバーアクセスログの確認
設定後24〜72時間以内にサーバーログを確認し、対象クローラーのアクセスが意図通りになっているかを見ます。
# Nginxのアクセスログでクローラーごとのアクセスを集計する例
grep -E "GPTBot|ClaudeBot|PerplexityBot|OAI-SearchBot|ChatGPT-User" /var/log/nginx/access.log \
| awk '{print $12}' \
| sort | uniq -c | sort -rn
ステップ3:AI検索での引用状況の確認
月1回程度、自社名や代表的なキーワードをChatGPT・Perplexity・Claudeで検索し、自サイトが引用されているかを確認します。許可設定後に引用が増えたか、ブロック後に引用が止まったかを追跡します。
ステップ4:GA4での参照元トラッキング
GA4の「参照元」レポートでchat.openai.com・perplexity.ai・claude.aiからの流入を確認します。AI検索からの流入はまだ全体の数%程度ですが、月次で伸びているかを見ます。
インデックスされるための本文側の施策
robots.txtでクローラーを「許可」しても、コンテンツそのものの品質がなければAI検索には引用されません。アクセス制御と並行して本文側も整備します。
一段落一論点の構造
AIは段落単位でコンテンツを抜き出して引用します。一つの段落に複数の主張を詰め込まず、「主張→根拠→例」という流れで1段落を完結させると引用されやすくなります。
数値・固有名詞・出典の明示
「引用するに値する」と判断されるには、具体的な数値・固有名詞・信頼できる出典が含まれていることが重要です。「増加した」よりも「前年比23%増加(○○社調査、2025年)」という書き方がAIに選ばれやすい傾向があります。
構造化データ(JSON-LD)の実装
Article・FAQPage・HowToなどの構造化データを実装しておくと、AIがコンテンツのカテゴリと信頼性を判断しやすくなります。特にFAQスキーマはAI Overviewでの引用との相関が複数のケーススタディで報告されています。
→ 詳しくはセマンティックHTMLとAI検索
海外ローカライズと多言語サイトの注意点
日本語コンテンツを英語圏のAI検索に引用させたい場合、あるいは多言語展開をしている場合は追加の考慮が必要です。
言語別のAIクローラーアクセス傾向
英語コンテンツはPerplexityBot・OAI-SearchBotのアクセス頻度が日本語コンテンツより高い傾向があります。理由は英語圏のユーザー数の多さと、AI学習データの言語バランスにあります。日本語サイトを英語圏向けにも展開する場合、英語版ページのrobots.txtルールを別途整理する必要があります。
hreflangとrobots.txtの整合
多言語サイトでは、hreflangでja・en・x-defaultを指定しているのに、robots.txtで特定言語版のパスをブロックしていると矛盾シグナルが生まれます。例えば/en/配下のみOAI-SearchBotに許可している場合、英語版のみAI検索に引用されて日本語版が引用されない状態になります。
# 多言語サイトで日英両方を検索引用用クローラーに許可する例
User-agent: OAI-SearchBot
Allow: /ja/
Allow: /en/
Disallow: /members/
User-agent: PerplexityBot
Allow: /ja/
Allow: /en/
Disallow: /members/
サブドメイン構成の場合
jp.example.com(日本語)とen.example.com(英語)でサブドメインを分けている場合、robots.txtはサブドメインごとに独立したファイルが必要です。jp.example.com/robots.txtの設定はen.example.comには引き継がれません。
→ 詳しくはAI検索が引用しない原因と対策
AIクローラーと著作権・AI法制の動向
2026年現在、AIの学習データに関する法制度が各国で整備されつつあります。この動向は「ブロックすべきか許可すべきか」という判断にも影響します。
欧州AI法(EU AI Act)
2024年施行の欧州AI法では、学習データの透明性確保が義務化されました。これを受けて欧州の大手出版社・メディアはrobots.txtで学習用クローラーを一律ブロックする方向に舵を切っています。日本語サイトでも欧州ユーザーへのサービスを提供している場合、対応を検討する必要があります。
日本の著作権法改正
日本では2018年改正著作権法でAI学習目的のデータ収集が原則認められていましたが、2024年以降の議論では「営利目的の学習データ収集」に制限を設ける方向で議論が進んでいます。現時点では学習用クローラーをブロックすることが著作権保護の観点から選択肢となっています。
→ 詳しくはAI検索品質評価アルゴリズム
ハルシネーション対策としてのrobots.txt
AIが誤った情報を引用してしまう「ハルシネーション」を防ぐ観点からも、robots.txtは活用できます。
古い情報や廃止済みの情報が掲載されているページをAIクローラーにクロールさせ続けると、AIが古い情報を「現在も有効な情報」として引用するリスクがあります。
# 古いページや廃止コンテンツはAI引用から除外する例
User-agent: OAI-SearchBot
Disallow: /archive/
Disallow: /2020/
Disallow: /2021/
Allow: /
User-agent: PerplexityBot
Disallow: /archive/
Disallow: /2020/
Disallow: /2021/
Allow: /
特に仕様変更・価格変更・サービス終了などの情報が古いページに残っている場合は、AIクローラーに読ませないか、ページ自体を削除・更新することが重要です。
→ 詳しくはハルシネーション防止とSEO
よくある質問
Q1. robots.txtでAIクローラーをブロックすると検索順位は下がりますか?
A. Googlebot(通常の検索クロール)への影響はありません。GPTBotやGoogle-ExtendedはGooglebotとは別のクローラーであり、これらをブロックしてもGoogle検索の順位には直接影響しません。ただしGoogle-ExtendedをブロックするとGeminiなど生成AI回答での引用機会は失います。
Q2. PerplexityBotを許可するとどんなメリットがありますか?
A. Perplexityは回答ソースとして引用したサイトへのリンクを表示する仕様のため、Perplexity経由の流入(いわゆる「Perplexity流入」)が発生します。AI検索の中でも参照流入がリンクとして表示される数少ないプラットフォームで、CVR(コンバージョン率)は自然検索より高いとする調査結果もあります。
Q3. ClaudeBot(Anthropic)はブロックしてもClaude.aiから引用されますか?
A. ClaudeBot(学習用)をブロックしても、Claude-Web(検索引用用)を許可していれば、Claude.aiでのリアルタイム参照は継続されます。Anthropicが学習用と検索引用用を分離しているため、両者を区別して設定することが重要です。
Q4. Bytespiderはrobots.txtを無視すると聞きましたが本当ですか?
A. 複数の調査でrobots.txtのDisallow設定を無視するケースが報告されています。IPベースのブロックも容易ではないため、完全な防御は難しい状況です。機密性の高いコンテンツはサーバー側の認証で保護するのが確実です。
Q5. robots.txtの変更はどれくらいで反映されますか?
A. Googlebotは通常数時間〜1日でrobots.txtの変更を検知します。AIクローラーの場合、アユダンテの調査ではブロック設定後「数時間以内に引用が停止した」ケースが多い一方、「数日かかった」ケースもあります。変更後はサーバーログで実際のアクセス状況を確認することが現実的です。
Q6. OAI-SearchBotとGPTBotの違いは何ですか?
A. GPTBotはGPTモデルの学習データ収集用、OAI-SearchBotはChatGPT Searchのインデックス構築用です。GPTBotをブロックすれば学習データに使われませんが、OAI-SearchBotまでブロックするとChatGPT Searchに引用されなくなります。「学習はNG、検索引用はOK」という場合はGPTBotのみブロックします。
Q7. 全ページではなく特定ページだけAIクローラーに許可する方法は?
A. AllowとDisallowを組み合わせてパスレベルで制御できます。たとえば/blog/配下だけ許可する場合はAllow: /blog/とDisallow: /を組み合わせます。ただし前述のワイルドカード問題に注意し、明示的な許可ルールが確実に機能しているかをアクセスログで確認します。
Q8. llms.txtとrobots.txtはどちらを先に設定すべきですか?
A. robots.txtが先です。llms.txtはAIへの「案内板」ですが、robots.txtでクロールを拒否しているページをllms.txtに書いても矛盾シグナルになります。まずrobots.txtでアクセス制御の基本方針を固め、その後llms.txtで許可したコンテンツのサマリを提供する順序が正しいです。
関連用語
関連記事
参考文献
- GPTBot - OpenAI — OpenAI(参照: 2026-06-06)
- Does Anthropic crawl the web and how can site owners block the crawler? — Anthropic(参照: 2026-06-06)
- robots.txt の概要 - Google Search Central — Google Developers(参照: 2026-06-06)
- 生成AIのクローラーのアクセス状況とrobots.txtへの反応を検証 — アユダンテ(参照: 2026-06-06)
- AIクローラーの種類と制御方法 — vicme(参照: 2026-06-06)
- The Complete robots.txt Guide for AI Crawlers in 2026 — Citevera(参照: 2026-06-06)
- Robots.txt Strategy 2026: Managing AI and Traditional Crawlers — Witscode(参照: 2026-06-06)
関連用語
- インデックス
インデックスとは、クローラーが集めたページをGoogleがデータベースに登録すること。インデックスされて初めて検索結果に表示される対象になります。「索引」とイメージすると分かりやすい用語です。
- hreflang
hreflangとは、多言語サイトで「このページは何語版か」「他の言語版はどこにあるか」を検索エンジンに伝えるタグ。日本人には日本語版、英語ユーザーには英語版を表示するために使います。
- llms.txt
llms.txtとは、サイト運営者がAIクローラーに「このサイトの重要な情報はここ」と伝えるためのMarkdownファイルの提案。2024年9月にJeremy Howard氏が提唱し、急速に普及しつつある新しい標準です。
- キーワード
キーワードとは、ユーザーが検索エンジンやChatGPT等のAI検索に打ち込む単語・フレーズ。SEO・LLMO両対策の出発点。ビッグ/ロングテール選定基準と無料ツールを使った選び方を初心者向けに解説します。
- クローラー
クローラーとは、Web上のページを自動巡回してデータを集めるプログラムのこと。Googleの「Googlebot」が代表例で、これに見つけてもらわないと検索結果に表示されません。
- 構造化データ
構造化データとは、Webページの内容を検索エンジンが理解しやすい形式で記述したメタ情報。記事の著者・公開日、商品の価格・在庫などを機械可読にすることでリッチリザルトやAI引用の対象になります。
関連記事
最新記事
practice カテゴリの他の記事
- robots.txtとllms.txtの違いとSEO影響を徹底比較【2026年版】
- AIクローラー ログ解析完全ガイド|GPTBot・ClaudeBot 検出からGEO可視化まで【2026年版】
- llms.txtの効果とWordPress実装ガイド|AI引用率を上げる設定・書き方【2026年版】
- セッション減少をAI検索が原因か診断する完全手順【2026年版】
- 中小企業のLLMO導入事例|AI引用率を改善した具体的ステップと成果
- AI検索でCTRが落ちた?原因と回復対策を完全解説【2026年版】
- セマンティックHTMLでAI検索の理解度を上げる完全実践ガイド
- YouTube サムネイル AB テストのやり方 2026 年版|雑学ショートで CTR を 2 倍にする手順
- YouTube Shorts と長尺の収益化はどっちが稼げる?2026 年版の RPM 比較と使い分け戦略
- YouTube Shorts から長尺動画への誘導設計|雑学ショート運営者の動線フロー 5 ステップ
- YouTube 検索ボリュームの調べ方|無料ツールで雑学キーワードを見つける 4 つの手順
- YouTube 収益と税金|個人事業主と法人化の損益分岐【日本 2026】