practice最終更新日: 2026年8月3日初出: 2026年6月9日

OAI-SearchBot・Claude-SearchBot を許可しつつ学習ボットを遮断する robots.txt 設計

OAI-SearchBot・Claude-SearchBot などの検索ボットを許可しながら GPTBot・ClaudeBot などの学習ボットを遮断することで、AI 検索での引用適格性を維持しつつ学習データ提供を拒否する 2026 年版 robots.txt 設計を解説する。

文責: LLMOツール編集部

#OAI-SearchBot#Claude-SearchBot#robots.txt#AIクローラー#LLMO#引用適格性

目次（13項目）

はじめに
学習ボットと検索ボットの根本的な違い
2026年版主要 User-agent 一覧
引用を維持しつつ学習を拒否する robots.txt の基本設計
Google-Extended の設計判断
誤設定パターンと引用機会の損失
設定後の検証方法
anthropic-ai について
関連用語
関連記事
基礎知識（Pillar）
実践ガイド（Cluster）
よくある質問（FAQ）

OAI-SearchBot・Claude-SearchBot を許可しつつ学習ボットを遮断する robots.txt 設計

結論： GPTBot と ClaudeBot をブロックしながら OAI-SearchBot・Claude-SearchBot・PerplexityBot を許可すれば、学習データ提供を拒否しつつ ChatGPT Search・Claude・Perplexity などの AI 検索エンジンで引用され続けることができる。2 種類のボットを混同して一括遮断すると、引用機会をゼロにするという致命的な誤設定になる。

最終更新日：2026年6月9日

はじめに

AI 検索の普及に伴い、同一プロバイダーが「学習用クローラー」と「検索/取得用クローラー」を別々に運用するケースが標準になった。たとえば OpenAI は GPTBot（モデル学習）と OAI-SearchBot（ChatGPT Search 用インデックス）を完全に分離して運用しており、片方だけを robots.txt で制御できる。

この分離を知らずに User-agent: * でまとめて Disallow したり、誤ったユーザーエージェント名を記述したりすると、「学習には使われたくないが AI 検索では引用されたい」という本来の意図が全く達成できなくなる。

本記事では各社の正式な User-agent 文字列を一覧化し、引用適格性（citation eligibility）を維持しながら学習を拒否するための robots.txt 許可リスト設計を具体的に解説する。

**学習ボット（Training Crawlers）**は収集したコンテンツを LLM のファインチューニングや事前学習データセットに使用する。代表例は GPTBot（OpenAI）、ClaudeBot（Anthropic）、CCBot（Common Crawl）、Google-Extended（Google/Gemini 学習）だ。これらを Disallow しても検索ランキングや既存の AI 引用には影響しない。

**検索/取得ボット（Search & Retrieval Crawlers）**はリアルタイムまたは定期的なインデックスによって、AI 検索エンジンの回答や引用元を構成するためにコンテンツを取得する。代表例は OAI-SearchBot（ChatGPT Search）、Claude-SearchBot（Claude の検索機能）、Claude-User（ユーザー起因の即時取得）、PerplexityBot（Perplexity の検索インデックス）だ。これらをブロックすると、対応する AI 検索サービスの引用対象から外れる。

この区分が明確であることが、後述する許可リスト設計の前提となる。

2026年版主要 User-agent 一覧

以下の表は 2026 年 6 月時点での主要 AI クローラーの User-agent 名、目的、推奨アクションをまとめたものだ。

User-agent	運営元	目的	推奨アクション
GPTBot	OpenAI	モデル学習	Disallow（学習拒否の場合）
OAI-SearchBot	OpenAI	ChatGPT Search 用インデックス	Allow（引用を維持）
ChatGPT-User	OpenAI	ユーザー起因のリアルタイム取得	Allow
ClaudeBot	Anthropic	モデル学習	Disallow（学習拒否の場合）
Claude-SearchBot	Anthropic	Claude 検索機能インデックス	Allow（引用を維持）
Claude-User	Anthropic	ユーザー起因のリアルタイム取得	Allow
anthropic-ai	Anthropic	旧来の学習クローラー（非推奨）	Disallow（念のため）
PerplexityBot	Perplexity	検索インデックス構築	Allow（引用を維持）
Google-Extended	Google	Gemini・AI 製品の学習データ	サイト方針に応じて判断
Googlebot	Google	Google 検索インデックス	Allow（基本的に許可）
CCBot	Common Crawl	汎用クロール・学習データ供給	Disallow（学習拒否の場合）
Bytespider	ByteDance	学習・サービス用途	Disallow

Google-Extended に関する注意点：Google-Extended はスタンドアロンのクローラーではなく、Googlebot が収集したコンテンツを Gemini 等の AI 学習に利用することを制御するトークンだ。Disallow にしても Google 検索の順位やインデックスには影響しない。ただし Gemini での学習・引用機会が減少するため、AI 検索マーケティング観点では判断が分かれる。

引用を維持しつつ学習を拒否する robots.txt の基本設計

「学習拒否＋引用維持」を実現する robots.txt の基本構造は次のとおりだ。学習ボットを先に明示的に Disallow し、検索/取得ボットには明示的に Allow を付与するという順序が重要となる。

# ========================================
# AI Training Crawlers – Disallow
# ========================================

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

# ========================================
# AI Search & Retrieval Crawlers – Allow
# ========================================

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: Claude-User
Allow: /

User-agent: PerplexityBot
Allow: /

# ========================================
# Default – Allow search engines
# ========================================

User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

User-agent: *
Disallow: /api/
Disallow: /admin/

このテンプレートではデフォルトルール（User-agent: *）に学習ボットをまとめて含めず、個別指定で明示する設計にしている。User-agent: * に Disallow: / を書いてしまうと検索ボットも巻き込む危険があるためだ。

Google-Extended の設計判断

Google-Extended のみ判断が複雑になる。

Google 検索の順位に影響しないため Disallow にすることのリスクは低い。一方で、Gemini を通じた AI 検索での引用（特にエンタープライズ・B2B ユーザー）を狙う場合は Allow の余地がある。2026 年現在、Gemini のビジネス向け利用が伸びているため、コンテンツの性質やターゲット読者に応じて以下のどちらかを選択する。

# Gemini 学習を許可する場合
User-agent: Google-Extended
Allow: /

# Gemini 学習を拒否する場合（Google 検索への影響なし）
User-agent: Google-Extended
Disallow: /

誤設定パターンと引用機会の損失

実際の誤設定でよく見られるケースは次の 3 つだ。

パターン 1：User-agent: * + Disallow: /
すべてのクローラーを遮断するため、OAI-SearchBot や Claude-SearchBot も対象になる。ChatGPT Search・Claude・Perplexity すべての引用対象から脱落する。学習ボットだけを狙った意図でも効果は真逆になる。

パターン 2：User-agent 名の誤記
User-agent: Claude-Searchbot（大文字小文字の誤り）や User-agent: OAISearchBot（ハイフン省略）は機能しない。robots.txt の User-agent マッチングは大文字小文字を区別しない仕様だが、ハイフンや数字の有無は厳密に一致させる必要がある。

パターン 3：GPTBot のみブロックして OAI-SearchBot を記述しない
明示的な Allow 指定がなくても多くのボットは許可扱いになるが、一部の厳格な実装では明示 Allow がないと Disallow と判断するリスクがある。引用に関わるボットは明示的に Allow: / を記述するのが安全だ。

設定後の検証方法

robots.txt を変更したあとは以下の手順で検証する。

1. Google Search Console の robots.txt テスター
Google Search Console の「URL 検査」→「クロールのテスト」で User-agent 名を入力し、特定パスの許可状態を確認できる。Googlebot 以外のカスタム User-agent も入力可能だ。

2. AI クローラー向け専用チェッカー
https://crawlercheck.com/ や各種 AI 対応 robots.txt バリデーターは GPTBot・ClaudeBot・OAI-SearchBot・PerplexityBot など複数ボットの許可状態を一覧で表示する。設定後に実際の URL でチェックするのが確実だ。

3. サーバーアクセスログの確認
robots.txt を更新してから 1〜2 週間後に、対象の User-agent 文字列がアクセスログに現れているか確認する。OAI-SearchBot が想定通りクロールしているか、GPTBot が遮断されているかをログで直接検証できる。

4. AI 検索での引用状況モニタリング
ChatGPT Search や Perplexity で自サイトの URL やブランド名を検索し、引用されているか確認する。設定変更から効果が現れるまでには 2〜4 週間かかることが多い。

anthropic-ai について

anthropic-ai は Anthropic が旧来のクロールで使用していた User-agent 文字列で、現在は非推奨（deprecated）となっている。現行の Anthropic クローラーは ClaudeBot（学習）・Claude-SearchBot（検索インデックス）・Claude-User（ユーザー起因の取得）の 3 種類に整理されている。

念のため User-agent: anthropic-ai / Disallow: / を残しておくことを推奨するが、現在ほとんどのトラフィックは新しい User-agent 名で来訪しているとみられる。

よくある質問（FAQ）

Q1. GPTBot を Disallow にすると ChatGPT の検索結果から外れますか？

A. 外れない。GPTBot はモデル学習専用で、ChatGPT Search のインデックスは OAI-SearchBot が担う。GPTBot をブロックしても OAI-SearchBot を許可していれば ChatGPT Search への引用は維持される。2 つのボットは完全に独立しているため、混同しないことが重要だ。

Q2. ClaudeBot と Claude-SearchBot は何が違いますか？

A. ClaudeBot は Anthropic のモデル学習（ファインチューニング・事前学習）のためにコンテンツを収集するクローラーだ。一方 Claude-SearchBot は Claude の検索機能用インデックスを構築するクローラーで、ユーザーが Claude に検索を依頼した際の引用元候補になる。LLMO 観点では ClaudeBot Disallow・Claude-SearchBot Allow が基本推奨となる。

Q3. anthropic-ai という User-agent はまだ有効ですか？

A. 現在は非推奨（deprecated）扱いで、Anthropic は ClaudeBot・Claude-SearchBot・Claude-User の 3 つの新しい User-agent を使用している。ただし古い設定との互換性のため、robots.txt に anthropic-ai の Disallow 行を残しておくことを推奨する。

Q4. PerplexityBot を Allow にすれば Perplexity で必ず引用されますか？

A. 引用適格性は得られるが保証はない。Perplexity のインデックスに含まれるかどうかはコンテンツの品質・関連性にも依存する。また、過去には Perplexity が robots.txt を遵守せず未宣言のクローラーでアクセスしていた事例が報告されているため、ブロック設定の完全な有効性については慎重に見る必要がある。

Q5. User-agent: * に Disallow: / を書いたら AI 検索ボットもブロックされますか？

A. ブロックされる。User-agent: * は robots.txt に個別 User-agent ブロックが存在しないすべてのクローラーに適用される。OAI-SearchBot や Claude-SearchBot の個別 Allow ブロックが User-agent: * の Disallow より前に記述されていれば個別指定が優先されるが、記述順序や実装の解釈によっては意図通りに動作しないリスクがある。検索ボットは明示的な個別ブロックで Allow を記述するのが最も安全だ。

Q6. Google-Extended を Disallow にすると Google 検索の順位が下がりますか？

A. 下がらない。Google-Extended は Googlebot から独立した制御トークンであり、Google 検索のクロールやインデックスには影響しない。Gemini などの AI 製品での学習データ利用のみを制御する。ただし Gemini を経由した AI 検索での引用機会は減少する可能性がある。

Q7. robots.txt の変更はどれくらいで反映されますか？

A. クローラーが次回訪問した際に更新された robots.txt を読み込む。主要な AI 検索ボットのクロール頻度はサイトの規模・更新頻度によるが、一般に 1〜2 週間で大半のボットが新しい設定を認識するとされている。ChatGPT Search や Perplexity での引用変化が確認できるまでにはさらに 2〜4 週間かかることが多い。

Q8. llms.txt と robots.txt はどちらが優先されますか？

A. 役割が異なるため優先関係ではなく、両方を併用するのが正しい。robots.txt はクローラーの「アクセス可否」を制御し、llms.txt は LLM が「どのコンテンツをどう理解すべきか」を案内するファイルだ。検索ボットへの引用適格性は robots.txt の Allow 設定が前提で、llms.txt はその上でコンテンツの優先順位や文脈を補足する役割を担う。詳細は /articles/robots-txt-vs-llms-txt-seo-impact-difference を参照。

Q9. ChatGPT-User と OAI-SearchBot はどう違いますか？

A. OAI-SearchBot は定期的なクロールで ChatGPT Search 用のインデックスを構築する。ChatGPT-User はユーザーが ChatGPT 上でリアルタイムに URL を指定したり、検索結果の詳細を取得したりする際にページを即時フェッチするクローラーだ。両方を Allow にすることで ChatGPT Search と ChatGPT のインライン引用の両方に対応できる。

Q10. CCBot を Disallow にすると影響がありますか？

A. CCBot は Common Crawl が運営する汎用クローラーで、多くの AI 企業が学習データの入手源として利用している。Disallow にしても直接的な検索ランキングや既存 AI サービスの引用への影響はほとんどないが、将来的な新モデルの学習データから除外される可能性がある。著作権・IP 保護を重視する場合は Disallow を推奨する。