OAI-SearchBot・Claude-SearchBot を許可しつつ学習ボットを遮断する robots.txt 設計
OAI-SearchBot・Claude-SearchBot などの検索ボットを許可しながら GPTBot・ClaudeBot などの学習ボットを遮断することで、AI 検索での引用適格性を維持しつつ学習データ提供を拒否する 2026 年版 robots.txt 設計を解説する。
目次(13項目)
OAI-SearchBot・Claude-SearchBot を許可しつつ学習ボットを遮断する robots.txt 設計
結論: GPTBot と ClaudeBot をブロックしながら OAI-SearchBot・Claude-SearchBot・PerplexityBot を許可すれば、学習データ提供を拒否しつつ ChatGPT Search・Claude・Perplexity などの AI 検索エンジンで引用され続けることができる。2 種類のボットを混同して一括遮断すると、引用機会をゼロにするという致命的な誤設定になる。
最終更新日:2026年6月9日
はじめに
AI 検索の普及に伴い、同一プロバイダーが「学習用クローラー」と「検索/取得用クローラー」を別々に運用するケースが標準になった。たとえば OpenAI は GPTBot(モデル学習)と OAI-SearchBot(ChatGPT Search 用インデックス)を完全に分離して運用しており、片方だけを robots.txt で制御できる。
この分離を知らずに User-agent: * でまとめて Disallow したり、誤ったユーザーエージェント名を記述したりすると、「学習には使われたくないが AI 検索では引用されたい」という本来の意図が全く達成できなくなる。
本記事では各社の正式な User-agent 文字列を一覧化し、引用適格性(citation eligibility)を維持しながら学習を拒否するための robots.txt 許可リスト設計を具体的に解説する。
学習ボットと検索ボットの根本的な違い
AI クローラーは目的によって 2 種類に大別できる。
**学習ボット(Training Crawlers)**は収集したコンテンツを LLM のファインチューニングや事前学習データセットに使用する。代表例は GPTBot(OpenAI)、ClaudeBot(Anthropic)、CCBot(Common Crawl)、Google-Extended(Google/Gemini 学習)だ。これらを Disallow しても検索ランキングや既存の AI 引用には影響しない。
**検索/取得ボット(Search & Retrieval Crawlers)**はリアルタイムまたは定期的なインデックスによって、AI 検索エンジンの回答や引用元を構成するためにコンテンツを取得する。代表例は OAI-SearchBot(ChatGPT Search)、Claude-SearchBot(Claude の検索機能)、Claude-User(ユーザー起因の即時取得)、PerplexityBot(Perplexity の検索インデックス)だ。これらをブロックすると、対応する AI 検索サービスの引用対象から外れる。
この区分が明確であることが、後述する許可リスト設計の前提となる。
2026年版 主要 User-agent 一覧
以下の表は 2026 年 6 月時点での主要 AI クローラーの User-agent 名、目的、推奨アクションをまとめたものだ。
| User-agent | 運営元 | 目的 | 推奨アクション |
|---|---|---|---|
| GPTBot | OpenAI | モデル学習 | Disallow(学習拒否の場合) |
| OAI-SearchBot | OpenAI | ChatGPT Search 用インデックス | Allow(引用を維持) |
| ChatGPT-User | OpenAI | ユーザー起因のリアルタイム取得 | Allow |
| ClaudeBot | Anthropic | モデル学習 | Disallow(学習拒否の場合) |
| Claude-SearchBot | Anthropic | Claude 検索機能インデックス | Allow(引用を維持) |
| Claude-User | Anthropic | ユーザー起因のリアルタイム取得 | Allow |
| anthropic-ai | Anthropic | 旧来の学習クローラー(非推奨) | Disallow(念のため) |
| PerplexityBot | Perplexity | 検索インデックス構築 | Allow(引用を維持) |
| Google-Extended | Gemini・AI 製品の学習データ | サイト方針に応じて判断 | |
| Googlebot | Google 検索インデックス | Allow(基本的に許可) | |
| CCBot | Common Crawl | 汎用クロール・学習データ供給 | Disallow(学習拒否の場合) |
| Bytespider | ByteDance | 学習・サービス用途 | Disallow |
Google-Extended に関する注意点:Google-Extended はスタンドアロンのクローラーではなく、Googlebot が収集したコンテンツを Gemini 等の AI 学習に利用することを制御するトークンだ。Disallow にしても Google 検索の順位やインデックスには影響しない。ただし Gemini での学習・引用機会が減少するため、AI 検索マーケティング観点では判断が分かれる。
引用を維持しつつ学習を拒否する robots.txt の基本設計
「学習拒否+引用維持」を実現する robots.txt の基本構造は次のとおりだ。学習ボットを先に明示的に Disallow し、検索/取得ボットには明示的に Allow を付与するという順序が重要となる。
# ========================================
# AI Training Crawlers – Disallow
# ========================================
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Bytespider
Disallow: /
# ========================================
# AI Search & Retrieval Crawlers – Allow
# ========================================
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: Claude-User
Allow: /
User-agent: PerplexityBot
Allow: /
# ========================================
# Default – Allow search engines
# ========================================
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
User-agent: *
Disallow: /api/
Disallow: /admin/
このテンプレートではデフォルトルール(User-agent: *)に学習ボットをまとめて含めず、個別指定で明示する設計にしている。User-agent: * に Disallow: / を書いてしまうと検索ボットも巻き込む危険があるためだ。
Google-Extended の設計判断
Google-Extended のみ判断が複雑になる。
Google 検索の順位に影響しないため Disallow にすることのリスクは低い。一方で、Gemini を通じた AI 検索での引用(特にエンタープライズ・B2B ユーザー)を狙う場合は Allow の余地がある。2026 年現在、Gemini のビジネス向け利用が伸びているため、コンテンツの性質やターゲット読者に応じて以下のどちらかを選択する。
# Gemini 学習を許可する場合
User-agent: Google-Extended
Allow: /
# Gemini 学習を拒否する場合(Google 検索への影響なし)
User-agent: Google-Extended
Disallow: /
誤設定パターンと引用機会の損失
実際の誤設定でよく見られるケースは次の 3 つだ。
パターン 1:User-agent: * + Disallow: /
すべてのクローラーを遮断するため、OAI-SearchBot や Claude-SearchBot も対象になる。ChatGPT Search・Claude・Perplexity すべての引用対象から脱落する。学習ボットだけを狙った意図でも効果は真逆になる。
パターン 2:User-agent 名の誤記
User-agent: Claude-Searchbot(大文字小文字の誤り)や User-agent: OAISearchBot(ハイフン省略)は機能しない。robots.txt の User-agent マッチングは大文字小文字を区別しない仕様だが、ハイフンや数字の有無は厳密に一致させる必要がある。
パターン 3:GPTBot のみブロックして OAI-SearchBot を記述しない
明示的な Allow 指定がなくても多くのボットは許可扱いになるが、一部の厳格な実装では明示 Allow がないと Disallow と判断するリスクがある。引用に関わるボットは明示的に Allow: / を記述するのが安全だ。
設定後の検証方法
robots.txt を変更したあとは以下の手順で検証する。
1. Google Search Console の robots.txt テスター
Google Search Console の「URL 検査」→「クロールのテスト」で User-agent 名を入力し、特定パスの許可状態を確認できる。Googlebot 以外のカスタム User-agent も入力可能だ。
2. AI クローラー向け専用チェッカー
https://crawlercheck.com/ や各種 AI 対応 robots.txt バリデーターは GPTBot・ClaudeBot・OAI-SearchBot・PerplexityBot など複数ボットの許可状態を一覧で表示する。設定後に実際の URL でチェックするのが確実だ。
3. サーバーアクセスログの確認
robots.txt を更新してから 1〜2 週間後に、対象の User-agent 文字列がアクセスログに現れているか確認する。OAI-SearchBot が想定通りクロールしているか、GPTBot が遮断されているかをログで直接検証できる。
4. AI 検索での引用状況モニタリング
ChatGPT Search や Perplexity で自サイトの URL やブランド名を検索し、引用されているか確認する。設定変更から効果が現れるまでには 2〜4 週間かかることが多い。
anthropic-ai について
anthropic-ai は Anthropic が旧来のクロールで使用していた User-agent 文字列で、現在は非推奨(deprecated)となっている。現行の Anthropic クローラーは ClaudeBot(学習)・Claude-SearchBot(検索インデックス)・Claude-User(ユーザー起因の取得)の 3 種類に整理されている。
念のため User-agent: anthropic-ai / Disallow: / を残しておくことを推奨するが、現在ほとんどのトラフィックは新しい User-agent 名で来訪しているとみられる。
関連用語
robots.txt
ウェブサイトのルートに置くテキストファイルで、クローラーのアクセス許可・拒否を制御する業界標準プロトコル。RFC 9309 で規格化されており、User-agent と Allow/Disallow ディレクティブで構成される。詳細は /glossary/robots-txt を参照。
引用適格性(Citation Eligibility)
AI 検索エンジンが回答生成の際に参照・引用する候補としてウェブページが考慮される状態のこと。robots.txt で検索ボットをブロックすると引用適格性を失い、AI 検索でのブランド露出機会がゼロになる。
クローラー(Crawler)
ウェブ上のページを自動巡回して内容を収集するプログラム。検索エンジンが検索インデックスを構築したり、AI が学習データを収集したりする際に使用する。詳細は /glossary/crawler を参照。
LLMO(Large Language Model Optimization)
LLM ベースの検索エンジンや AI アシスタントに自サイトのコンテンツを引用・言及させるための最適化施策。robots.txt による検索ボットの許可制御は LLMO の基盤となるテクニカル施策の一つ。詳細は /glossary/llmo を参照。
関連記事
基礎知識(Pillar)
実践ガイド(Cluster)
- robots.txt 完全ガイド:AI クローラー対応版
- robots.txt と llms.txt の違いと SEO 影響
- AI クローラーの robots.txt とインデックス戦略
- AI クローラーログ解析:GPTBot・ClaudeBot・GEO の実態
- 学習ボットと検索ボットを robots.txt で分離する戦略
- llms.txt が AI 引用に与える効果と WordPress 実装
- noindex が LLMO(AI 引用)に与える影響
よくある質問(FAQ)
Q1. GPTBot を Disallow にすると ChatGPT の検索結果から外れますか?
A. 外れない。GPTBot はモデル学習専用で、ChatGPT Search のインデックスは OAI-SearchBot が担う。GPTBot をブロックしても OAI-SearchBot を許可していれば ChatGPT Search への引用は維持される。2 つのボットは完全に独立しているため、混同しないことが重要だ。
Q2. ClaudeBot と Claude-SearchBot は何が違いますか?
A. ClaudeBot は Anthropic のモデル学習(ファインチューニング・事前学習)のためにコンテンツを収集するクローラーだ。一方 Claude-SearchBot は Claude の検索機能用インデックスを構築するクローラーで、ユーザーが Claude に検索を依頼した際の引用元候補になる。LLMO 観点では ClaudeBot Disallow・Claude-SearchBot Allow が基本推奨となる。
Q3. anthropic-ai という User-agent はまだ有効ですか?
A. 現在は非推奨(deprecated)扱いで、Anthropic は ClaudeBot・Claude-SearchBot・Claude-User の 3 つの新しい User-agent を使用している。ただし古い設定との互換性のため、robots.txt に anthropic-ai の Disallow 行を残しておくことを推奨する。
Q4. PerplexityBot を Allow にすれば Perplexity で必ず引用されますか?
A. 引用適格性は得られるが保証はない。Perplexity のインデックスに含まれるかどうかはコンテンツの品質・関連性にも依存する。また、過去には Perplexity が robots.txt を遵守せず未宣言のクローラーでアクセスしていた事例が報告されているため、ブロック設定の完全な有効性については慎重に見る必要がある。
Q5. User-agent: * に Disallow: / を書いたら AI 検索ボットもブロックされますか?
A. ブロックされる。User-agent: * は robots.txt に個別 User-agent ブロックが存在しないすべてのクローラーに適用される。OAI-SearchBot や Claude-SearchBot の個別 Allow ブロックが User-agent: * の Disallow より前に記述されていれば個別指定が優先されるが、記述順序や実装の解釈によっては意図通りに動作しないリスクがある。検索ボットは明示的な個別ブロックで Allow を記述するのが最も安全だ。
Q6. Google-Extended を Disallow にすると Google 検索の順位が下がりますか?
A. 下がらない。Google-Extended は Googlebot から独立した制御トークンであり、Google 検索のクロールやインデックスには影響しない。Gemini などの AI 製品での学習データ利用のみを制御する。ただし Gemini を経由した AI 検索での引用機会は減少する可能性がある。
Q7. robots.txt の変更はどれくらいで反映されますか?
A. クローラーが次回訪問した際に更新された robots.txt を読み込む。主要な AI 検索ボットのクロール頻度はサイトの規模・更新頻度によるが、一般に 1〜2 週間で大半のボットが新しい設定を認識するとされている。ChatGPT Search や Perplexity での引用変化が確認できるまでにはさらに 2〜4 週間かかることが多い。
Q8. llms.txt と robots.txt はどちらが優先されますか?
A. 役割が異なるため優先関係ではなく、両方を併用するのが正しい。robots.txt はクローラーの「アクセス可否」を制御し、llms.txt は LLM が「どのコンテンツをどう理解すべきか」を案内するファイルだ。検索ボットへの引用適格性は robots.txt の Allow 設定が前提で、llms.txt はその上でコンテンツの優先順位や文脈を補足する役割を担う。詳細は /articles/robots-txt-vs-llms-txt-seo-impact-difference を参照。
Q9. ChatGPT-User と OAI-SearchBot はどう違いますか?
A. OAI-SearchBot は定期的なクロールで ChatGPT Search 用のインデックスを構築する。ChatGPT-User はユーザーが ChatGPT 上でリアルタイムに URL を指定したり、検索結果の詳細を取得したりする際にページを即時フェッチするクローラーだ。両方を Allow にすることで ChatGPT Search と ChatGPT のインライン引用の両方に対応できる。
Q10. CCBot を Disallow にすると影響がありますか?
A. CCBot は Common Crawl が運営する汎用クローラーで、多くの AI 企業が学習データの入手源として利用している。Disallow にしても直接的な検索ランキングや既存 AI サービスの引用への影響はほとんどないが、将来的な新モデルの学習データから除外される可能性がある。著作権・IP 保護を重視する場合は Disallow を推奨する。
参考文献
- Overview of OpenAI Crawlers(参照: 2026-06-09)
- Anthropic Crawlers – ClaudeBot, Claude-SearchBot, Claude-User(参照: 2026-06-09)
- Google Crawlers – including Google-Extended(参照: 2026-06-09)
- Perplexity AI – robots.txt(参照: 2026-06-09)
- ai-robots-txt / ai.robots.txt – Community Reference(参照: 2026-06-09)
関連用語
- インデックス
インデックスとは、クローラーが集めたページをGoogleがデータベースに登録すること。インデックスされて初めて検索結果に表示される対象になります。「索引」とイメージすると分かりやすい用語です。
- llms.txt
llms.txtとは、サイト運営者がAIクローラーに「このサイトの重要な情報はここ」と伝えるためのMarkdownファイルの提案。2024年9月にJeremy Howard氏が提唱し、急速に普及しつつある新しい標準です。
- クローラー
クローラーとは、Web上のページを自動巡回してデータを集めるプログラムのこと。Googleの「Googlebot」が代表例で、これに見つけてもらわないと検索結果に表示されません。
- トークン
トークンとは、LLMが文章を処理する最小単位。「単語」より細かく、英語なら約4文字 = 1トークン、日本語なら1〜2文字 = 1トークンが目安。API料金もトークン単位で決まります。
- noindex
noindexとは、ページに付けることで「このページを検索結果に表示しないでください」と検索エンジンに伝えるmetaタグ。低品質ページや会員専用ページに使い、サイト全体の評価を守ります。
- Perplexity
Perplexity(パープレキシティ)とは、回答に必ず引用元(出典URL)を表示する米国発のAI検索エンジン。2022年公開で急速に成長中。LLMOで「サイテーションされる」最初の主戦場として重視されています。
関連記事
最新記事
practice カテゴリの他の記事
- AIクローラー ログ解析完全ガイド|GPTBot・ClaudeBot 検出からGEO可視化まで【2026年版】
- llms.txtの効果とWordPress実装ガイド|AI引用率を上げる設定・書き方【2026年版】
- セッション減少をAI検索が原因か診断する完全手順【2026年版】
- AIクローラーのrobots.txt設定とAI検索引用戦略【2026年版】
- 中小企業のLLMO導入事例|AI引用率を改善した具体的ステップと成果
- AI検索でCTRが落ちた?原因と回復対策を完全解説【2026年版】
- セマンティックHTMLでAI検索の理解度を上げる完全実践ガイド
- YouTube サムネイル AB テストのやり方 2026 年版|雑学ショートで CTR を 2 倍にする手順
- YouTube Shorts と長尺の収益化はどっちが稼げる?2026 年版の RPM 比較と使い分け戦略
- YouTube Shorts から長尺動画への誘導設計|雑学ショート運営者の動線フロー 5 ステップ
- YouTube 検索ボリュームの調べ方|無料ツールで雑学キーワードを見つける 4 つの手順
- YouTube 収益と税金|個人事業主と法人化の損益分岐【日本 2026】