practice最終更新日: 2026年8月3日初出: 2026年6月8日

robots.txtでAIトレーニングと検索ボットを分離する戦略【2026年版】

GPTBot・ClaudeBot・Google-Extendedなど主要AIクローラーを目的別に制御するrobots.txt分離設定を解説。学習データ提供を拒否しながらAI検索からの引用機会を維持する実践戦略を紹介する。

#robots.txt#AIクローラー#GPTBot#ClaudeBot#LLMO#クロール制御

目次（14項目）

はじめに
AIクローラーは「学習系」と「検索系」に分かれる
主要User-agentの一覧と制御ポイント
分離設定の基本構成：robots.txt記述例
部分的なコンテンツ保護の設計パターン
よくある誤設定とその影響
誤設定①：全ボット一括ブロック
誤設定②：Googlebotと Google-Extendedの混同
誤設定③：ClaudeBotのブロック漏れ
誤設定④：robots.txtをnoindexの代替として使う
設定後の検証方法
関連用語
関連記事
よくある質問（FAQ）

robots.txtでAIトレーニングと検索ボットを分離する戦略【2026年版】

結論： AIクローラーは「学習データ収集」と「AI検索・回答生成」の2種類に大別でき、それぞれ別のUser-agentが割り当てられている。robots.txtで両者を個別に制御することで、学習データとしての無断利用を防ぎながら、ChatGPTやPerplexityなどのAI検索エンジンへの引用機会は維持するという最適解が実現できる。

最終更新日：2026年6月8日

はじめに

「AIにコンテンツを学習させたくない」と考えてGPTBotをrobots.txtでブロックしたところ、ChatGPT Searchからの参照流入がゼロになった――そんな事例が増えている。原因は、学習用クローラーと検索用クローラーを同一視したまま設定したことにある。

2026年現在、主要AIプロバイダーは目的の異なる複数のクローラーを運用している。OpenAIはモデル学習用のGPTBotと、ChatGPT Searchのリアルタイム取得用OAI-SearchBotを分けて公開している。GoogleもGoogle-Extendedというトークンを通じて、Geminiへの学習利用だけを個別にオプトアウトできる仕組みを提供した。

robots.txtの分離設定は、もはや「AIから守る」という守りの施策ではなく、LLMO（Large Language Model Optimization）戦略の中核をなす積極的な設計の問題になっている。本稿では主要ボットの整理から具体的な記述例、よくある誤設定まで体系的に解説する。

AIクローラーは「学習系」と「検索系」に分かれる

AIクローラーを一括りにブロックする前に、まず目的別の分類を把握しておきたい。大きく3種類に分けられる。

① 学習データ収集系（Training Bot） モデルのファインチューニングや事前学習に使うコンテンツを収集する。代表的なものがGPTBot（OpenAI）、ClaudeBot（Anthropic）、Google-Extended（Google）、CCBot（Common Crawl）だ。これらをDisallowしても、AI検索の引用には直接影響しない。

② AI検索・回答生成系（Search Bot） ユーザーの質問に対してリアルタイムでWebを取得し、回答の根拠や引用元として使うクローラー。OAI-SearchBot（ChatGPT Search）、ChatGPT-User（ユーザー起点の取得）、PerplexityBot、YouBotなどが該当する。これらをブロックすると、AI検索での引用機会が失われる。

③ 汎用・共有データセット系 CCBot（Common Crawl）は多くのAIモデルの事前学習データセットとして広く使われる。直接的なAI企業のクローラーではないが、間接的な学習利用の入口となるため、学習データ提供を拒否したい場合はDisallowの対象になる。

この3分類を前提に置くことで、robots.txtの設計方針が整理される。

主要User-agentの一覧と制御ポイント

実装前に各ボットの正式なUser-agent文字列を把握しておく必要がある。

User-agent	運営会社	用途
`GPTBot`	OpenAI	モデル学習データ収集
`OAI-SearchBot`	OpenAI	ChatGPT Searchのリアルタイム取得
`ChatGPT-User`	OpenAI	ユーザー起点のページ取得
`ClaudeBot`	Anthropic	Claudeのモデル学習・データ収集
`anthropic-ai`	Anthropic	Anthropic社サービスのクロール
`Google-Extended`	Google	GeminiやVertex AIへの学習利用制御
`CCBot`	Common Crawl	共有データセット収集
`PerplexityBot`	Perplexity	Perplexity AI検索の取得
`YouBot`	You.com	You.com検索の取得

Google-Extendedは独立したクローラーではなく、Googlebotが収集したデータをGeminiの学習・Grounding用途に使うことを制御するためのUser-agentトークンという点が特徴的だ。Googlebotそのもののクロールには影響しない。

分離設定の基本構成：robots.txt記述例

以下が「学習ボットはブロック・AI検索ボットは通す」という分離設定の標準的な記述例だ。

# ================================================
# AI学習データ収集クローラー：すべて拒否
# ================================================

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

# ================================================
# AI検索・回答生成クローラー：通常クロール許可
# ================================================

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: YouBot
Allow: /

# ================================================
# 通常の検索エンジン：デフォルト許可
# ================================================

User-agent: Googlebot
Allow: /

User-agent: bingbot
Allow: /

# ================================================
# 全体のデフォルトルール
# ================================================

User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /private/

Sitemap: https://example.com/sitemap.xml

Allow: /の記述は省略しても動作するが、意図を明示するために書いておくと管理しやすい。各ブロックにコメントを入れることで、後から設定変更した際の意図が伝わりやすくなる。

部分的なコンテンツ保護の設計パターン

サイト全体ではなく、特定ディレクトリやコンテンツのみを学習対象から外したい場合は、Disallowのパスを絞り込む。

# 有料コンテンツ・会員専用ページのみ学習から除外
User-agent: GPTBot
Disallow: /premium/
Disallow: /members/
Disallow: /tools/

User-agent: ClaudeBot
Disallow: /premium/
Disallow: /members/
Disallow: /tools/

このパターンは、オープンなブログ記事はAI学習に使わせてブランド認知を高めつつ、コア機能や有料コンテンツは保護するという戦略に適している。SaaSサービスやメディアサイトで実用性が高い。

よくある誤設定とその影響

誤設定①：全ボット一括ブロック

# 危険：すべてのクローラーをブロックしてしまう
User-agent: *
Disallow: /

これはGooglebotも含めた全クローラーをブロックするため、検索インデックスが消えてサイトのSEOが壊滅的な打撃を受ける。「AIから守りたい」という意図で安易に記述すると致命的な事故になる。

誤設定②：Googlebotと Google-Extendedの混同

Google-Extendedをブロックしても、Googlebotのクロールとインデックスには一切影響しない。逆に、Googlebotをブロックすると検索順位が消える一方でGeminiへの学習利用は続く可能性がある。両者は独立して制御できるという点を必ず押さえておく。

誤設定③：ClaudeBotのブロック漏れ

ClaudeBotのみ記述してanthropic-aiを書き忘れるケースがある。AnthropicはUser-agentに複数の識別文字列を使い分けている場合があるため、公式ドキュメントで最新のUser-agent一覧を確認したうえで両方を記述するのが安全だ。

誤設定④：robots.txtをnoindexの代替として使う

robots.txtはクロールを「お願いする」仕組みであり、行儀のよいボットしか従わない。noindexメタタグやX-Robots-Tagのように、インデックスを強制的に制御する効力はない。ページを検索結果から除外したい場合は必ずnoindexを使う。

設定後の検証方法

robots.txtを更新したら以下の手順で動作を確認する。

Google Search Consoleのrobots.txtテスターを使い、各User-agentに対して意図通りのAllow/Disallowが返るかを確認する
ブラウザでhttps://yourdomain.com/robots.txtにアクセスして記述が正しく反映されているか目視チェック
サーバーログの確認：設定後1〜2週間でClaudeBotやGPTBotからのアクセスが減少しているかを確認する（完全にゼロになるとは限らないが、主要ボットは従う）
GSCのクロール統計でGooglebotのクロール頻度が意図せず低下していないかを監視する

robots.txtの変更はリアルタイムで反映されるが、各クローラーがファイルを再取得するまでには数時間〜数日かかることがある。

よくある質問（FAQ）

Q1. robots.txtでGPTBotをブロックすると、ChatGPT Searchにも表示されなくなりますか？

A. いいえ、表示されなくなりません。GPTBotはモデル学習用、ChatGPT Searchの取得にはOAI-SearchBotが使われます。GPTBotのみをブロックしてもOAI-SearchBotを許可していれば、ChatGPT Searchへの引用機会は維持されます。

Q2. Google-Extendedをブロックすると、Google検索の順位に影響しますか？

A. 影響しません。Google-Extendedの制御はGeminiやVertex AIへの学習利用のみを対象としており、Googlebotのクロールや検索インデックスへの登録には一切関係がありません。SEO評価への影響はゼロです。

Q3. ClaudeBotをブロックすると、Claude（チャットAI）での言及も減りますか？

A. 直接的な因果は証明されていませんが、学習データへの取り込みを止めることで、将来のモデル更新後に引用・言及される機会が減少する可能性はあります。現在のモデルへの即時影響はありません。

Q4. robots.txtを無視して収集するクローラーはありますか？

A. あります。OpenAI・Anthropic・Googleなどの大手プロバイダーは原則として遵守しますが、格安の中小AI企業や悪意あるスクレイパーは無視するケースがあります。robots.txtはあくまで「紳士協定」であり、法的拘束力はありません。

Q5. CCBotをブロックすることで、どのAIの学習を防げますか？

A. Common Crawlのデータセットは多くのオープンソースLLMや研究用モデルの学習に使われています。Meta LlamaやMistralなど多数のモデルがCCのデータを活用しているため、CCBotのブロックは広範な学習利用の抑制につながります。

Q6. robots.txtとllms.txtは同時に使うべきですか？

A. 目的が異なるため、両方の活用が理想的です。robots.txtはクロール自体の可否を制御する守りの設定、llms.txtはLLMに対してサイトの構造や重要コンテンツを積極的に伝える攻めの設定です。llms.txtを整備しながら学習クローラーだけをrobots.txtでブロックするという組み合わせが最も合理的です。

Q7. サイト全体ではなく特定ページだけAI学習から守れますか？

A. 可能です。Disallow: /premium/のようにパスを指定することで、有料コンテンツや独自分析データなど守りたいディレクトリのみを対象にできます。オープンなコンテンツはAI検索からの流入を狙いながら、コア資産は保護するという使い分けが有効です。

Q8. robots.txtの変更はどのくらいで各クローラーに反映されますか？

A. クローラーがrobots.txtを再取得するまでのサイクルはボットごとに異なり、数時間から数日程度かかるのが一般的です。緊急でブロックしたい場合は、robots.txtに加えてWAF（Web Application Firewall）でUser-agentベースのアクセス制限を併用する方法が即効性の点で確実です。

Q9. OAI-SearchBotとChatGPT-Userの違いは何ですか？

A. OAI-SearchBotはChatGPT Searchが自動的にWebをクロールして最新情報を取得するためのクローラーです。一方、ChatGPT-Userはユーザーが会話の中で特定のURLを指定した場合や、Custom GPTが外部取得を行う際に使われます。AI検索での引用を狙うにはどちらも許可しておくのが基本方針です。