robots.txtでAIトレーニングと検索ボットを分離する戦略【2026年版】
GPTBot・ClaudeBot・Google-Extendedなど主要AIクローラーを目的別に制御するrobots.txt分離設定を解説。学習データ提供を拒否しながらAI検索からの引用機会を維持する実践戦略を紹介する。
目次(14項目)
robots.txtでAIトレーニングと検索ボットを分離する戦略【2026年版】
結論: AIクローラーは「学習データ収集」と「AI検索・回答生成」の2種類に大別でき、それぞれ別のUser-agentが割り当てられている。robots.txtで両者を個別に制御することで、学習データとしての無断利用を防ぎながら、ChatGPTやPerplexityなどのAI検索エンジンへの引用機会は維持するという最適解が実現できる。
最終更新日:2026年6月8日
はじめに
「AIにコンテンツを学習させたくない」と考えてGPTBotをrobots.txtでブロックしたところ、ChatGPT Searchからの参照流入がゼロになった――そんな事例が増えている。原因は、学習用クローラーと検索用クローラーを同一視したまま設定したことにある。
2026年現在、主要AIプロバイダーは目的の異なる複数のクローラーを運用している。OpenAIはモデル学習用のGPTBotと、ChatGPT Searchのリアルタイム取得用OAI-SearchBotを分けて公開している。GoogleもGoogle-Extendedというトークンを通じて、Geminiへの学習利用だけを個別にオプトアウトできる仕組みを提供した。
robots.txtの分離設定は、もはや「AIから守る」という守りの施策ではなく、LLMO(Large Language Model Optimization)戦略の中核をなす積極的な設計の問題になっている。本稿では主要ボットの整理から具体的な記述例、よくある誤設定まで体系的に解説する。
AIクローラーは「学習系」と「検索系」に分かれる
AIクローラーを一括りにブロックする前に、まず目的別の分類を把握しておきたい。大きく3種類に分けられる。
① 学習データ収集系(Training Bot)
モデルのファインチューニングや事前学習に使うコンテンツを収集する。代表的なものがGPTBot(OpenAI)、ClaudeBot(Anthropic)、Google-Extended(Google)、CCBot(Common Crawl)だ。これらをDisallowしても、AI検索の引用には直接影響しない。
② AI検索・回答生成系(Search Bot)
ユーザーの質問に対してリアルタイムでWebを取得し、回答の根拠や引用元として使うクローラー。OAI-SearchBot(ChatGPT Search)、ChatGPT-User(ユーザー起点の取得)、PerplexityBot、YouBotなどが該当する。これらをブロックすると、AI検索での引用機会が失われる。
③ 汎用・共有データセット系
CCBot(Common Crawl)は多くのAIモデルの事前学習データセットとして広く使われる。直接的なAI企業のクローラーではないが、間接的な学習利用の入口となるため、学習データ提供を拒否したい場合はDisallowの対象になる。
この3分類を前提に置くことで、robots.txtの設計方針が整理される。
主要User-agentの一覧と制御ポイント
実装前に各ボットの正式なUser-agent文字列を把握しておく必要がある。
| User-agent | 運営会社 | 用途 |
|---|---|---|
GPTBot | OpenAI | モデル学習データ収集 |
OAI-SearchBot | OpenAI | ChatGPT Searchのリアルタイム取得 |
ChatGPT-User | OpenAI | ユーザー起点のページ取得 |
ClaudeBot | Anthropic | Claudeのモデル学習・データ収集 |
anthropic-ai | Anthropic | Anthropic社サービスのクロール |
Google-Extended | GeminiやVertex AIへの学習利用制御 | |
CCBot | Common Crawl | 共有データセット収集 |
PerplexityBot | Perplexity | Perplexity AI検索の取得 |
YouBot | You.com | You.com検索の取得 |
Google-Extendedは独立したクローラーではなく、Googlebotが収集したデータをGeminiの学習・Grounding用途に使うことを制御するためのUser-agentトークンという点が特徴的だ。Googlebotそのもののクロールには影響しない。
分離設定の基本構成:robots.txt記述例
以下が「学習ボットはブロック・AI検索ボットは通す」という分離設定の標準的な記述例だ。
# ================================================
# AI学習データ収集クローラー:すべて拒否
# ================================================
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
# ================================================
# AI検索・回答生成クローラー:通常クロール許可
# ================================================
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: YouBot
Allow: /
# ================================================
# 通常の検索エンジン:デフォルト許可
# ================================================
User-agent: Googlebot
Allow: /
User-agent: bingbot
Allow: /
# ================================================
# 全体のデフォルトルール
# ================================================
User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /private/
Sitemap: https://example.com/sitemap.xml
Allow: /の記述は省略しても動作するが、意図を明示するために書いておくと管理しやすい。各ブロックにコメントを入れることで、後から設定変更した際の意図が伝わりやすくなる。
部分的なコンテンツ保護の設計パターン
サイト全体ではなく、特定ディレクトリやコンテンツのみを学習対象から外したい場合は、Disallowのパスを絞り込む。
# 有料コンテンツ・会員専用ページのみ学習から除外
User-agent: GPTBot
Disallow: /premium/
Disallow: /members/
Disallow: /tools/
User-agent: ClaudeBot
Disallow: /premium/
Disallow: /members/
Disallow: /tools/
このパターンは、オープンなブログ記事はAI学習に使わせてブランド認知を高めつつ、コア機能や有料コンテンツは保護するという戦略に適している。SaaSサービスやメディアサイトで実用性が高い。
よくある誤設定とその影響
誤設定①:全ボット一括ブロック
# 危険:すべてのクローラーをブロックしてしまう
User-agent: *
Disallow: /
これはGooglebotも含めた全クローラーをブロックするため、検索インデックスが消えてサイトのSEOが壊滅的な打撃を受ける。「AIから守りたい」という意図で安易に記述すると致命的な事故になる。
誤設定②:Googlebotと Google-Extendedの混同
Google-Extendedをブロックしても、Googlebotのクロールとインデックスには一切影響しない。逆に、Googlebotをブロックすると検索順位が消える一方でGeminiへの学習利用は続く可能性がある。両者は独立して制御できるという点を必ず押さえておく。
誤設定③:ClaudeBotのブロック漏れ
ClaudeBotのみ記述してanthropic-aiを書き忘れるケースがある。AnthropicはUser-agentに複数の識別文字列を使い分けている場合があるため、公式ドキュメントで最新のUser-agent一覧を確認したうえで両方を記述するのが安全だ。
誤設定④:robots.txtをnoindexの代替として使う
robots.txtはクロールを「お願いする」仕組みであり、行儀のよいボットしか従わない。noindexメタタグやX-Robots-Tagのように、インデックスを強制的に制御する効力はない。ページを検索結果から除外したい場合は必ずnoindexを使う。
設定後の検証方法
robots.txtを更新したら以下の手順で動作を確認する。
- Google Search Consoleのrobots.txtテスターを使い、各User-agentに対して意図通りのAllow/Disallowが返るかを確認する
- ブラウザで
https://yourdomain.com/robots.txtにアクセスして記述が正しく反映されているか目視チェック - サーバーログの確認:設定後1〜2週間でClaudeBotやGPTBotからのアクセスが減少しているかを確認する(完全にゼロになるとは限らないが、主要ボットは従う)
- GSCのクロール統計でGooglebotのクロール頻度が意図せず低下していないかを監視する
robots.txtの変更はリアルタイムで反映されるが、各クローラーがファイルを再取得するまでには数時間〜数日かかることがある。
関連用語
- robots.txt(クローラー制御ファイル) — クローラーへのアクセス可否を宣言するテキストファイル
- クローラー — Webページを巡回して情報を収集するプログラムの総称
- llms.txt — LLMに対してサイト情報を構造化して伝えるための新しい規格
- noindex — ページを検索エンジンのインデックスから除外するディレクティブ
- LLMO — Large Language Model Optimization、AIへの最適化施策全般
関連記事
- robots.txt 完全ガイド:基礎から応用まで
- robots.txtとllms.txtのSEO・LLMO影響の違い
- AIクローラーのrobots.txtとインデックス戦略
- AIクローラーのログ解析:GPTBot・ClaudeBot・GEO
- llms.txtによるAI引用効果とWordPress実装
- LLMO完全ガイド:AIに評価されるコンテンツ戦略
- AI検索最適化(AISEO)完全ガイド
- SEO×LLMO ハイブリッド戦略
よくある質問(FAQ)
Q1. robots.txtでGPTBotをブロックすると、ChatGPT Searchにも表示されなくなりますか?
A. いいえ、表示されなくなりません。GPTBotはモデル学習用、ChatGPT Searchの取得にはOAI-SearchBotが使われます。GPTBotのみをブロックしてもOAI-SearchBotを許可していれば、ChatGPT Searchへの引用機会は維持されます。
Q2. Google-Extendedをブロックすると、Google検索の順位に影響しますか?
A. 影響しません。Google-Extendedの制御はGeminiやVertex AIへの学習利用のみを対象としており、Googlebotのクロールや検索インデックスへの登録には一切関係がありません。SEO評価への影響はゼロです。
Q3. ClaudeBotをブロックすると、Claude(チャットAI)での言及も減りますか?
A. 直接的な因果は証明されていませんが、学習データへの取り込みを止めることで、将来のモデル更新後に引用・言及される機会が減少する可能性はあります。現在のモデルへの即時影響はありません。
Q4. robots.txtを無視して収集するクローラーはありますか?
A. あります。OpenAI・Anthropic・Googleなどの大手プロバイダーは原則として遵守しますが、格安の中小AI企業や悪意あるスクレイパーは無視するケースがあります。robots.txtはあくまで「紳士協定」であり、法的拘束力はありません。
Q5. CCBotをブロックすることで、どのAIの学習を防げますか?
A. Common Crawlのデータセットは多くのオープンソースLLMや研究用モデルの学習に使われています。Meta LlamaやMistralなど多数のモデルがCCのデータを活用しているため、CCBotのブロックは広範な学習利用の抑制につながります。
Q6. robots.txtとllms.txtは同時に使うべきですか?
A. 目的が異なるため、両方の活用が理想的です。robots.txtはクロール自体の可否を制御する守りの設定、llms.txtはLLMに対してサイトの構造や重要コンテンツを積極的に伝える攻めの設定です。llms.txtを整備しながら学習クローラーだけをrobots.txtでブロックするという組み合わせが最も合理的です。
Q7. サイト全体ではなく特定ページだけAI学習から守れますか?
A. 可能です。Disallow: /premium/のようにパスを指定することで、有料コンテンツや独自分析データなど守りたいディレクトリのみを対象にできます。オープンなコンテンツはAI検索からの流入を狙いながら、コア資産は保護するという使い分けが有効です。
Q8. robots.txtの変更はどのくらいで各クローラーに反映されますか?
A. クローラーがrobots.txtを再取得するまでのサイクルはボットごとに異なり、数時間から数日程度かかるのが一般的です。緊急でブロックしたい場合は、robots.txtに加えてWAF(Web Application Firewall)でUser-agentベースのアクセス制限を併用する方法が即効性の点で確実です。
Q9. OAI-SearchBotとChatGPT-Userの違いは何ですか?
A. OAI-SearchBotはChatGPT Searchが自動的にWebをクロールして最新情報を取得するためのクローラーです。一方、ChatGPT-Userはユーザーが会話の中で特定のURLを指定した場合や、Custom GPTが外部取得を行う際に使われます。AI検索での引用を狙うにはどちらも許可しておくのが基本方針です。
参考文献
- GPTBot - OpenAI公式クローラー概要 — OpenAI(参照: 2026-06-08)
- Google-Extended の制御について(Googlebot ドキュメント) — Google Search Central(参照: 2026-06-08)
- ClaudeBot - Anthropic公式クローラー情報 — Anthropic(参照: 2026-06-08)
- robots.txt の仕様(Google 検索セントラル) — Google Search Central(参照: 2026-06-08)
- OAI-SearchBotとは?ChatGPT Searchで表示されるためのrobots.txt設定と確認ポイント — ファネルAi(参照: 2026-06-08)
関連用語
- インデックス
インデックスとは、クローラーが集めたページをGoogleがデータベースに登録すること。インデックスされて初めて検索結果に表示される対象になります。「索引」とイメージすると分かりやすい用語です。
- llms.txt
llms.txtとは、サイト運営者がAIクローラーに「このサイトの重要な情報はここ」と伝えるためのMarkdownファイルの提案。2024年9月にJeremy Howard氏が提唱し、急速に普及しつつある新しい標準です。
- クローラー
クローラーとは、Web上のページを自動巡回してデータを集めるプログラムのこと。Googleの「Googlebot」が代表例で、これに見つけてもらわないと検索結果に表示されません。
- sitemap.xml
sitemap.xmlとは、サイト内のページ一覧をXML形式でまとめたファイル。クローラーに「うちにはこんなページがありますよ」と教えるための地図で、新規サイトのインデックス促進に必須です。
- トークン
トークンとは、LLMが文章を処理する最小単位。「単語」より細かく、英語なら約4文字 = 1トークン、日本語なら1〜2文字 = 1トークンが目安。API料金もトークン単位で決まります。
- noindex
noindexとは、ページに付けることで「このページを検索結果に表示しないでください」と検索エンジンに伝えるmetaタグ。低品質ページや会員専用ページに使い、サイト全体の評価を守ります。
関連記事
最新記事
practice カテゴリの他の記事
- AIクローラー ログ解析完全ガイド|GPTBot・ClaudeBot 検出からGEO可視化まで【2026年版】
- llms.txtの効果とWordPress実装ガイド|AI引用率を上げる設定・書き方【2026年版】
- セッション減少をAI検索が原因か診断する完全手順【2026年版】
- AIクローラーのrobots.txt設定とAI検索引用戦略【2026年版】
- 中小企業のLLMO導入事例|AI引用率を改善した具体的ステップと成果
- AI検索でCTRが落ちた?原因と回復対策を完全解説【2026年版】
- セマンティックHTMLでAI検索の理解度を上げる完全実践ガイド
- YouTube サムネイル AB テストのやり方 2026 年版|雑学ショートで CTR を 2 倍にする手順
- YouTube Shorts と長尺の収益化はどっちが稼げる?2026 年版の RPM 比較と使い分け戦略
- YouTube Shorts から長尺動画への誘導設計|雑学ショート運営者の動線フロー 5 ステップ
- YouTube 検索ボリュームの調べ方|無料ツールで雑学キーワードを見つける 4 つの手順
- YouTube 収益と税金|個人事業主と法人化の損益分岐【日本 2026】