AISEO/LLMO分析
robots.txtでAIトレーニングと検索ボットを分離する戦略【2026年版】 (robots-txt-training-vs-search-bot-split-strategy)
practice最終更新日: 2026年6月7日初出: 2026年6月8日

robots.txtでAIトレーニングと検索ボットを分離する戦略【2026年版】

GPTBot・ClaudeBot・Google-Extendedなど主要AIクローラーを目的別に制御するrobots.txt分離設定を解説。学習データ提供を拒否しながらAI検索からの引用機会を維持する実践戦略を紹介する。

#robots.txt#AIクローラー#GPTBot#ClaudeBot#LLMO#クロール制御
目次(14項目)

robots.txtでAIトレーニングと検索ボットを分離する戦略【2026年版】

結論: AIクローラーは「学習データ収集」と「AI検索・回答生成」の2種類に大別でき、それぞれ別のUser-agentが割り当てられている。robots.txtで両者を個別に制御することで、学習データとしての無断利用を防ぎながら、ChatGPTやPerplexityなどのAI検索エンジンへの引用機会は維持するという最適解が実現できる。

最終更新日:2026年6月8日


はじめに

「AIにコンテンツを学習させたくない」と考えてGPTBotをrobots.txtでブロックしたところ、ChatGPT Searchからの参照流入がゼロになった――そんな事例が増えている。原因は、学習用クローラーと検索用クローラーを同一視したまま設定したことにある。

2026年現在、主要AIプロバイダーは目的の異なる複数のクローラーを運用している。OpenAIはモデル学習用のGPTBotと、ChatGPT Searchのリアルタイム取得用OAI-SearchBotを分けて公開している。GoogleもGoogle-Extendedというトークンを通じて、Geminiへの学習利用だけを個別にオプトアウトできる仕組みを提供した。

robots.txtの分離設定は、もはや「AIから守る」という守りの施策ではなく、LLMO(Large Language Model Optimization)戦略の中核をなす積極的な設計の問題になっている。本稿では主要ボットの整理から具体的な記述例、よくある誤設定まで体系的に解説する。


AIクローラーは「学習系」と「検索系」に分かれる

AIクローラーを一括りにブロックする前に、まず目的別の分類を把握しておきたい。大きく3種類に分けられる。

① 学習データ収集系(Training Bot) モデルのファインチューニングや事前学習に使うコンテンツを収集する。代表的なものがGPTBot(OpenAI)、ClaudeBot(Anthropic)、Google-Extended(Google)、CCBot(Common Crawl)だ。これらをDisallowしても、AI検索の引用には直接影響しない。

② AI検索・回答生成系(Search Bot) ユーザーの質問に対してリアルタイムでWebを取得し、回答の根拠や引用元として使うクローラー。OAI-SearchBot(ChatGPT Search)、ChatGPT-User(ユーザー起点の取得)、PerplexityBotYouBotなどが該当する。これらをブロックすると、AI検索での引用機会が失われる。

③ 汎用・共有データセット系 CCBot(Common Crawl)は多くのAIモデルの事前学習データセットとして広く使われる。直接的なAI企業のクローラーではないが、間接的な学習利用の入口となるため、学習データ提供を拒否したい場合はDisallowの対象になる。

この3分類を前提に置くことで、robots.txtの設計方針が整理される。


主要User-agentの一覧と制御ポイント

実装前に各ボットの正式なUser-agent文字列を把握しておく必要がある。

User-agent運営会社用途
GPTBotOpenAIモデル学習データ収集
OAI-SearchBotOpenAIChatGPT Searchのリアルタイム取得
ChatGPT-UserOpenAIユーザー起点のページ取得
ClaudeBotAnthropicClaudeのモデル学習・データ収集
anthropic-aiAnthropicAnthropic社サービスのクロール
Google-ExtendedGoogleGeminiやVertex AIへの学習利用制御
CCBotCommon Crawl共有データセット収集
PerplexityBotPerplexityPerplexity AI検索の取得
YouBotYou.comYou.com検索の取得

Google-Extendedは独立したクローラーではなく、Googlebotが収集したデータをGeminiの学習・Grounding用途に使うことを制御するためのUser-agentトークンという点が特徴的だ。Googlebotそのもののクロールには影響しない。


分離設定の基本構成:robots.txt記述例

以下が「学習ボットはブロック・AI検索ボットは通す」という分離設定の標準的な記述例だ。

# ================================================
# AI学習データ収集クローラー:すべて拒否
# ================================================

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

# ================================================
# AI検索・回答生成クローラー:通常クロール許可
# ================================================

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: YouBot
Allow: /

# ================================================
# 通常の検索エンジン:デフォルト許可
# ================================================

User-agent: Googlebot
Allow: /

User-agent: bingbot
Allow: /

# ================================================
# 全体のデフォルトルール
# ================================================

User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /private/

Sitemap: https://example.com/sitemap.xml

Allow: /の記述は省略しても動作するが、意図を明示するために書いておくと管理しやすい。各ブロックにコメントを入れることで、後から設定変更した際の意図が伝わりやすくなる。


部分的なコンテンツ保護の設計パターン

サイト全体ではなく、特定ディレクトリやコンテンツのみを学習対象から外したい場合は、Disallowのパスを絞り込む。

# 有料コンテンツ・会員専用ページのみ学習から除外
User-agent: GPTBot
Disallow: /premium/
Disallow: /members/
Disallow: /tools/

User-agent: ClaudeBot
Disallow: /premium/
Disallow: /members/
Disallow: /tools/

このパターンは、オープンなブログ記事はAI学習に使わせてブランド認知を高めつつ、コア機能や有料コンテンツは保護するという戦略に適している。SaaSサービスやメディアサイトで実用性が高い。


よくある誤設定とその影響

誤設定①:全ボット一括ブロック

# 危険:すべてのクローラーをブロックしてしまう
User-agent: *
Disallow: /

これはGooglebotも含めた全クローラーをブロックするため、検索インデックスが消えてサイトのSEOが壊滅的な打撃を受ける。「AIから守りたい」という意図で安易に記述すると致命的な事故になる。

誤設定②:Googlebotと Google-Extendedの混同

Google-Extendedをブロックしても、Googlebotのクロールとインデックスには一切影響しない。逆に、Googlebotをブロックすると検索順位が消える一方でGeminiへの学習利用は続く可能性がある。両者は独立して制御できるという点を必ず押さえておく。

誤設定③:ClaudeBotのブロック漏れ

ClaudeBotのみ記述してanthropic-aiを書き忘れるケースがある。AnthropicはUser-agentに複数の識別文字列を使い分けている場合があるため、公式ドキュメントで最新のUser-agent一覧を確認したうえで両方を記述するのが安全だ。

誤設定④:robots.txtをnoindexの代替として使う

robots.txtはクロールを「お願いする」仕組みであり、行儀のよいボットしか従わない。noindexメタタグやX-Robots-Tagのように、インデックスを強制的に制御する効力はない。ページを検索結果から除外したい場合は必ずnoindexを使う。


設定後の検証方法

robots.txtを更新したら以下の手順で動作を確認する。

  1. Google Search Consoleのrobots.txtテスターを使い、各User-agentに対して意図通りのAllow/Disallowが返るかを確認する
  2. ブラウザでhttps://yourdomain.com/robots.txtにアクセスして記述が正しく反映されているか目視チェック
  3. サーバーログの確認:設定後1〜2週間でClaudeBotやGPTBotからのアクセスが減少しているかを確認する(完全にゼロになるとは限らないが、主要ボットは従う)
  4. GSCのクロール統計でGooglebotのクロール頻度が意図せず低下していないかを監視する

robots.txtの変更はリアルタイムで反映されるが、各クローラーがファイルを再取得するまでには数時間〜数日かかることがある。


関連用語

  • robots.txt(クローラー制御ファイル) — クローラーへのアクセス可否を宣言するテキストファイル
  • クローラー — Webページを巡回して情報を収集するプログラムの総称
  • llms.txt — LLMに対してサイト情報を構造化して伝えるための新しい規格
  • noindex — ページを検索エンジンのインデックスから除外するディレクティブ
  • LLMO — Large Language Model Optimization、AIへの最適化施策全般

関連記事


よくある質問(FAQ)

Q1. robots.txtでGPTBotをブロックすると、ChatGPT Searchにも表示されなくなりますか?

A. いいえ、表示されなくなりません。GPTBotはモデル学習用、ChatGPT Searchの取得にはOAI-SearchBotが使われます。GPTBotのみをブロックしてもOAI-SearchBotを許可していれば、ChatGPT Searchへの引用機会は維持されます。

Q2. Google-Extendedをブロックすると、Google検索の順位に影響しますか?

A. 影響しません。Google-Extendedの制御はGeminiやVertex AIへの学習利用のみを対象としており、Googlebotのクロールや検索インデックスへの登録には一切関係がありません。SEO評価への影響はゼロです。

Q3. ClaudeBotをブロックすると、Claude(チャットAI)での言及も減りますか?

A. 直接的な因果は証明されていませんが、学習データへの取り込みを止めることで、将来のモデル更新後に引用・言及される機会が減少する可能性はあります。現在のモデルへの即時影響はありません。

Q4. robots.txtを無視して収集するクローラーはありますか?

A. あります。OpenAI・Anthropic・Googleなどの大手プロバイダーは原則として遵守しますが、格安の中小AI企業や悪意あるスクレイパーは無視するケースがあります。robots.txtはあくまで「紳士協定」であり、法的拘束力はありません。

Q5. CCBotをブロックすることで、どのAIの学習を防げますか?

A. Common Crawlのデータセットは多くのオープンソースLLMや研究用モデルの学習に使われています。Meta LlamaやMistralなど多数のモデルがCCのデータを活用しているため、CCBotのブロックは広範な学習利用の抑制につながります。

Q6. robots.txtとllms.txtは同時に使うべきですか?

A. 目的が異なるため、両方の活用が理想的です。robots.txtはクロール自体の可否を制御する守りの設定、llms.txtはLLMに対してサイトの構造や重要コンテンツを積極的に伝える攻めの設定です。llms.txtを整備しながら学習クローラーだけをrobots.txtでブロックするという組み合わせが最も合理的です。

Q7. サイト全体ではなく特定ページだけAI学習から守れますか?

A. 可能です。Disallow: /premium/のようにパスを指定することで、有料コンテンツや独自分析データなど守りたいディレクトリのみを対象にできます。オープンなコンテンツはAI検索からの流入を狙いながら、コア資産は保護するという使い分けが有効です。

Q8. robots.txtの変更はどのくらいで各クローラーに反映されますか?

A. クローラーがrobots.txtを再取得するまでのサイクルはボットごとに異なり、数時間から数日程度かかるのが一般的です。緊急でブロックしたい場合は、robots.txtに加えてWAF(Web Application Firewall)でUser-agentベースのアクセス制限を併用する方法が即効性の点で確実です。

Q9. OAI-SearchBotとChatGPT-Userの違いは何ですか?

A. OAI-SearchBotはChatGPT Searchが自動的にWebをクロールして最新情報を取得するためのクローラーです。一方、ChatGPT-Userはユーザーが会話の中で特定のURLを指定した場合や、Custom GPTが外部取得を行う際に使われます。AI検索での引用を狙うにはどちらも許可しておくのが基本方針です。

参考文献

  1. GPTBot - OpenAI公式クローラー概要OpenAI(参照: 2026-06-08)
  2. Google-Extended の制御について(Googlebot ドキュメント)Google Search Central(参照: 2026-06-08)
  3. ClaudeBot - Anthropic公式クローラー情報Anthropic(参照: 2026-06-08)
  4. robots.txt の仕様(Google 検索セントラル)Google Search Central(参照: 2026-06-08)
  5. OAI-SearchBotとは?ChatGPT Searchで表示されるためのrobots.txt設定と確認ポイントファネルAi(参照: 2026-06-08)

関連用語

  • インデックス

    インデックスとは、クローラーが集めたページをGoogleがデータベースに登録すること。インデックスされて初めて検索結果に表示される対象になります。「索引」とイメージすると分かりやすい用語です。

  • llms.txt

    llms.txtとは、サイト運営者がAIクローラーに「このサイトの重要な情報はここ」と伝えるためのMarkdownファイルの提案。2024年9月にJeremy Howard氏が提唱し、急速に普及しつつある新しい標準です。

  • クローラー

    クローラーとは、Web上のページを自動巡回してデータを集めるプログラムのこと。Googleの「Googlebot」が代表例で、これに見つけてもらわないと検索結果に表示されません。

  • sitemap.xml

    sitemap.xmlとは、サイト内のページ一覧をXML形式でまとめたファイル。クローラーに「うちにはこんなページがありますよ」と教えるための地図で、新規サイトのインデックス促進に必須です。

  • トークン

    トークンとは、LLMが文章を処理する最小単位。「単語」より細かく、英語なら約4文字 = 1トークン、日本語なら1〜2文字 = 1トークンが目安。API料金もトークン単位で決まります。

  • noindex

    noindexとは、ページに付けることで「このページを検索結果に表示しないでください」と検索エンジンに伝えるmetaタグ。低品質ページや会員専用ページに使い、サイト全体の評価を守ります。

関連記事

最新記事

LLMモニタリングツール比較2026|AI回答引用を計測するおすすめツール7選 (llm-monitoring-tools-comparison-2026)
ツール比較基礎2026/06/07

LLMモニタリングツール比較2026|AI回答引用を計測するおすすめツール7選

LLMモニタリングツールを2026年最新版で比較。AI回答引用モニタリングツールのおすすめ7選を機能・料金・日本語対応で徹底整理。無料から有料まで目的別の選び方チェックリスト付き。

#LLMモニタリングツール#AI回答引用#モニタリングツール比較#LLMO
YouTube SEO 完全ガイド 2026 年版|雑学ショートから学べる検索流入の作り方 (youtube-seo-2026-japan-complete-guide)
SEO基礎2026/05/23

YouTube SEO 完全ガイド 2026 年版|雑学ショートから学べる検索流入の作り方

YouTube SEO の本質を 2026 年のアルゴリズムと AI 検索の文脈で再整理。雑学ショート動画運営者でも実践できる KW 選定・タイトル・サムネ・視聴維持率・Shorts と LLMO 引用の関係まで網羅した日本語ピラーガイド。

#YouTube SEO#YouTube アルゴリズム#YouTube Shorts#雑学チャンネル
YouTube 収益化 完全ガイド【2026 年版】6 つの収益モデルと月収目安の現実 (youtube-monetization-complete-guide-2026)
ツール比較基礎2026/05/17

YouTube 収益化 完全ガイド【2026 年版】6 つの収益モデルと月収目安の現実

YouTube 収益化を 2026 年時点の全 6 モデル(広告・Shorts・メンバーシップ・スパチャ・アフィリエイト・スポンサー)で体系化。YPP 条件・ジャンル別 RPM・月収目安まで、収益化までの最短ロードマップを解説。

#YouTube収益化#YPP#YouTubeパートナープログラム#RPM
動画 SEO 完全ガイド 2026|YouTube・Google・AI 検索の三軸最適化 (video-seo-complete-guide-2026)
ツール比較基礎2026/05/10

動画 SEO 完全ガイド 2026|YouTube・Google・AI 検索の三軸最適化

動画 SEO を YouTube・Google 検索・AI 検索の三軸で網羅。VideoObject スキーマ・字幕・動画サイトマップ・計測ツールまで25,000字で解説する2026年版決定ガイド。

#動画SEO#VideoObject#YouTube#AI検索
YouTube SEO × LLMO 完全ガイド|AI 検索時代の動画最適化【2026 年版】 (youtube-seo-llmo-complete-guide)
LLMO基礎2026/05/10

YouTube SEO × LLMO 完全ガイド|AI 検索時代の動画最適化【2026 年版】

YouTube SEO と LLMO を統合した動画最適化の決定版。Perplexity・ChatGPT・AI Overview への引用候補に押し上げられる戦略を25,000字で網羅する。

#YouTube SEO#LLMO#AI検索#動画最適化
無料キーワード調査ツール完全比較 12 選【2026 年版・トラフィック獲得用ハブ】 (free-keyword-tools-master-comparison-2026)
ツール比較基礎2026/05/09

無料キーワード調査ツール完全比較 12 選【2026 年版・トラフィック獲得用ハブ】

無料で使えるキーワード調査ツール 12 選を徹底比較。サジェスト精度・検索ボリューム精度・日本語対応を 3 軸で評価し、個人ブロガーから BtoB SaaS まで用途別の最強組み合わせを解説します。

#無料キーワードツール#キーワード調査#比較#2026

practice カテゴリの他の記事