AISEO/LLMO分析
OAI-SearchBot・Claude-SearchBot を許可しつつ学習ボットを遮断する robots.txt 設計 (searchbot-vs-trainingbot-allow-block-citation-eligibility)
practice最終更新日: 2026年6月8日初出: 2026年6月9日

OAI-SearchBot・Claude-SearchBot を許可しつつ学習ボットを遮断する robots.txt 設計

OAI-SearchBot・Claude-SearchBot などの検索ボットを許可しながら GPTBot・ClaudeBot などの学習ボットを遮断することで、AI 検索での引用適格性を維持しつつ学習データ提供を拒否する 2026 年版 robots.txt 設計を解説する。

#OAI-SearchBot#Claude-SearchBot#robots.txt#AIクローラー#LLMO#引用適格性
目次(13項目)

OAI-SearchBot・Claude-SearchBot を許可しつつ学習ボットを遮断する robots.txt 設計

結論: GPTBot と ClaudeBot をブロックしながら OAI-SearchBot・Claude-SearchBot・PerplexityBot を許可すれば、学習データ提供を拒否しつつ ChatGPT Search・Claude・Perplexity などの AI 検索エンジンで引用され続けることができる。2 種類のボットを混同して一括遮断すると、引用機会をゼロにするという致命的な誤設定になる。

最終更新日:2026年6月9日


はじめに

AI 検索の普及に伴い、同一プロバイダーが「学習用クローラー」と「検索/取得用クローラー」を別々に運用するケースが標準になった。たとえば OpenAI は GPTBot(モデル学習)と OAI-SearchBot(ChatGPT Search 用インデックス)を完全に分離して運用しており、片方だけを robots.txt で制御できる。

この分離を知らずに User-agent: * でまとめて Disallow したり、誤ったユーザーエージェント名を記述したりすると、「学習には使われたくないが AI 検索では引用されたい」という本来の意図が全く達成できなくなる。

本記事では各社の正式な User-agent 文字列を一覧化し、引用適格性(citation eligibility)を維持しながら学習を拒否するための robots.txt 許可リスト設計を具体的に解説する。


学習ボットと検索ボットの根本的な違い

AI クローラーは目的によって 2 種類に大別できる。

**学習ボット(Training Crawlers)**は収集したコンテンツを LLM のファインチューニングや事前学習データセットに使用する。代表例は GPTBot(OpenAI)、ClaudeBot(Anthropic)、CCBot(Common Crawl)、Google-Extended(Google/Gemini 学習)だ。これらを Disallow しても検索ランキングや既存の AI 引用には影響しない。

**検索/取得ボット(Search & Retrieval Crawlers)**はリアルタイムまたは定期的なインデックスによって、AI 検索エンジンの回答や引用元を構成するためにコンテンツを取得する。代表例は OAI-SearchBot(ChatGPT Search)、Claude-SearchBot(Claude の検索機能)、Claude-User(ユーザー起因の即時取得)、PerplexityBot(Perplexity の検索インデックス)だ。これらをブロックすると、対応する AI 検索サービスの引用対象から外れる。

この区分が明確であることが、後述する許可リスト設計の前提となる。


2026年版 主要 User-agent 一覧

以下の表は 2026 年 6 月時点での主要 AI クローラーの User-agent 名、目的、推奨アクションをまとめたものだ。

User-agent運営元目的推奨アクション
GPTBotOpenAIモデル学習Disallow(学習拒否の場合)
OAI-SearchBotOpenAIChatGPT Search 用インデックスAllow(引用を維持)
ChatGPT-UserOpenAIユーザー起因のリアルタイム取得Allow
ClaudeBotAnthropicモデル学習Disallow(学習拒否の場合)
Claude-SearchBotAnthropicClaude 検索機能インデックスAllow(引用を維持)
Claude-UserAnthropicユーザー起因のリアルタイム取得Allow
anthropic-aiAnthropic旧来の学習クローラー(非推奨)Disallow(念のため)
PerplexityBotPerplexity検索インデックス構築Allow(引用を維持)
Google-ExtendedGoogleGemini・AI 製品の学習データサイト方針に応じて判断
GooglebotGoogleGoogle 検索インデックスAllow(基本的に許可)
CCBotCommon Crawl汎用クロール・学習データ供給Disallow(学習拒否の場合)
BytespiderByteDance学習・サービス用途Disallow

Google-Extended に関する注意点:Google-Extended はスタンドアロンのクローラーではなく、Googlebot が収集したコンテンツを Gemini 等の AI 学習に利用することを制御するトークンだ。Disallow にしても Google 検索の順位やインデックスには影響しない。ただし Gemini での学習・引用機会が減少するため、AI 検索マーケティング観点では判断が分かれる。


引用を維持しつつ学習を拒否する robots.txt の基本設計

「学習拒否+引用維持」を実現する robots.txt の基本構造は次のとおりだ。学習ボットを先に明示的に Disallow し、検索/取得ボットには明示的に Allow を付与するという順序が重要となる。

# ========================================
# AI Training Crawlers – Disallow
# ========================================

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

# ========================================
# AI Search & Retrieval Crawlers – Allow
# ========================================

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: Claude-User
Allow: /

User-agent: PerplexityBot
Allow: /

# ========================================
# Default – Allow search engines
# ========================================

User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

User-agent: *
Disallow: /api/
Disallow: /admin/

このテンプレートではデフォルトルール(User-agent: *)に学習ボットをまとめて含めず、個別指定で明示する設計にしている。User-agent: *Disallow: / を書いてしまうと検索ボットも巻き込む危険があるためだ。


Google-Extended の設計判断

Google-Extended のみ判断が複雑になる。

Google 検索の順位に影響しないため Disallow にすることのリスクは低い。一方で、Gemini を通じた AI 検索での引用(特にエンタープライズ・B2B ユーザー)を狙う場合は Allow の余地がある。2026 年現在、Gemini のビジネス向け利用が伸びているため、コンテンツの性質やターゲット読者に応じて以下のどちらかを選択する。

# Gemini 学習を許可する場合
User-agent: Google-Extended
Allow: /

# Gemini 学習を拒否する場合(Google 検索への影響なし)
User-agent: Google-Extended
Disallow: /

誤設定パターンと引用機会の損失

実際の誤設定でよく見られるケースは次の 3 つだ。

パターン 1:User-agent: * + Disallow: /
すべてのクローラーを遮断するため、OAI-SearchBot や Claude-SearchBot も対象になる。ChatGPT Search・Claude・Perplexity すべての引用対象から脱落する。学習ボットだけを狙った意図でも効果は真逆になる。

パターン 2:User-agent 名の誤記
User-agent: Claude-Searchbot(大文字小文字の誤り)や User-agent: OAISearchBot(ハイフン省略)は機能しない。robots.txt の User-agent マッチングは大文字小文字を区別しない仕様だが、ハイフンや数字の有無は厳密に一致させる必要がある。

パターン 3:GPTBot のみブロックして OAI-SearchBot を記述しない
明示的な Allow 指定がなくても多くのボットは許可扱いになるが、一部の厳格な実装では明示 Allow がないと Disallow と判断するリスクがある。引用に関わるボットは明示的に Allow: / を記述するのが安全だ。


設定後の検証方法

robots.txt を変更したあとは以下の手順で検証する。

1. Google Search Console の robots.txt テスター
Google Search Console の「URL 検査」→「クロールのテスト」で User-agent 名を入力し、特定パスの許可状態を確認できる。Googlebot 以外のカスタム User-agent も入力可能だ。

2. AI クローラー向け専用チェッカー
https://crawlercheck.com/ や各種 AI 対応 robots.txt バリデーターは GPTBot・ClaudeBot・OAI-SearchBot・PerplexityBot など複数ボットの許可状態を一覧で表示する。設定後に実際の URL でチェックするのが確実だ。

3. サーバーアクセスログの確認
robots.txt を更新してから 1〜2 週間後に、対象の User-agent 文字列がアクセスログに現れているか確認する。OAI-SearchBot が想定通りクロールしているか、GPTBot が遮断されているかをログで直接検証できる。

4. AI 検索での引用状況モニタリング
ChatGPT Search や Perplexity で自サイトの URL やブランド名を検索し、引用されているか確認する。設定変更から効果が現れるまでには 2〜4 週間かかることが多い。


anthropic-ai について

anthropic-ai は Anthropic が旧来のクロールで使用していた User-agent 文字列で、現在は非推奨(deprecated)となっている。現行の Anthropic クローラーは ClaudeBot(学習)・Claude-SearchBot(検索インデックス)・Claude-User(ユーザー起因の取得)の 3 種類に整理されている。

念のため User-agent: anthropic-ai / Disallow: / を残しておくことを推奨するが、現在ほとんどのトラフィックは新しい User-agent 名で来訪しているとみられる。


関連用語

robots.txt
ウェブサイトのルートに置くテキストファイルで、クローラーのアクセス許可・拒否を制御する業界標準プロトコル。RFC 9309 で規格化されており、User-agentAllow/Disallow ディレクティブで構成される。詳細は /glossary/robots-txt を参照。

引用適格性(Citation Eligibility)
AI 検索エンジンが回答生成の際に参照・引用する候補としてウェブページが考慮される状態のこと。robots.txt で検索ボットをブロックすると引用適格性を失い、AI 検索でのブランド露出機会がゼロになる。

クローラー(Crawler)
ウェブ上のページを自動巡回して内容を収集するプログラム。検索エンジンが検索インデックスを構築したり、AI が学習データを収集したりする際に使用する。詳細は /glossary/crawler を参照。

LLMO(Large Language Model Optimization)
LLM ベースの検索エンジンや AI アシスタントに自サイトのコンテンツを引用・言及させるための最適化施策。robots.txt による検索ボットの許可制御は LLMO の基盤となるテクニカル施策の一つ。詳細は /glossary/llmo を参照。


関連記事

基礎知識(Pillar)

実践ガイド(Cluster)


よくある質問(FAQ)

Q1. GPTBot を Disallow にすると ChatGPT の検索結果から外れますか?

A. 外れない。GPTBot はモデル学習専用で、ChatGPT Search のインデックスは OAI-SearchBot が担う。GPTBot をブロックしても OAI-SearchBot を許可していれば ChatGPT Search への引用は維持される。2 つのボットは完全に独立しているため、混同しないことが重要だ。

Q2. ClaudeBot と Claude-SearchBot は何が違いますか?

A. ClaudeBot は Anthropic のモデル学習(ファインチューニング・事前学習)のためにコンテンツを収集するクローラーだ。一方 Claude-SearchBot は Claude の検索機能用インデックスを構築するクローラーで、ユーザーが Claude に検索を依頼した際の引用元候補になる。LLMO 観点では ClaudeBot Disallow・Claude-SearchBot Allow が基本推奨となる。

Q3. anthropic-ai という User-agent はまだ有効ですか?

A. 現在は非推奨(deprecated)扱いで、Anthropic は ClaudeBot・Claude-SearchBot・Claude-User の 3 つの新しい User-agent を使用している。ただし古い設定との互換性のため、robots.txt に anthropic-ai の Disallow 行を残しておくことを推奨する。

Q4. PerplexityBot を Allow にすれば Perplexity で必ず引用されますか?

A. 引用適格性は得られるが保証はない。Perplexity のインデックスに含まれるかどうかはコンテンツの品質・関連性にも依存する。また、過去には Perplexity が robots.txt を遵守せず未宣言のクローラーでアクセスしていた事例が報告されているため、ブロック設定の完全な有効性については慎重に見る必要がある。

Q5. User-agent: *Disallow: / を書いたら AI 検索ボットもブロックされますか?

A. ブロックされる。User-agent: * は robots.txt に個別 User-agent ブロックが存在しないすべてのクローラーに適用される。OAI-SearchBot や Claude-SearchBot の個別 Allow ブロックが User-agent: * の Disallow より前に記述されていれば個別指定が優先されるが、記述順序や実装の解釈によっては意図通りに動作しないリスクがある。検索ボットは明示的な個別ブロックで Allow を記述するのが最も安全だ。

Q6. Google-Extended を Disallow にすると Google 検索の順位が下がりますか?

A. 下がらない。Google-Extended は Googlebot から独立した制御トークンであり、Google 検索のクロールやインデックスには影響しない。Gemini などの AI 製品での学習データ利用のみを制御する。ただし Gemini を経由した AI 検索での引用機会は減少する可能性がある。

Q7. robots.txt の変更はどれくらいで反映されますか?

A. クローラーが次回訪問した際に更新された robots.txt を読み込む。主要な AI 検索ボットのクロール頻度はサイトの規模・更新頻度によるが、一般に 1〜2 週間で大半のボットが新しい設定を認識するとされている。ChatGPT Search や Perplexity での引用変化が確認できるまでにはさらに 2〜4 週間かかることが多い。

Q8. llms.txt と robots.txt はどちらが優先されますか?

A. 役割が異なるため優先関係ではなく、両方を併用するのが正しい。robots.txt はクローラーの「アクセス可否」を制御し、llms.txt は LLM が「どのコンテンツをどう理解すべきか」を案内するファイルだ。検索ボットへの引用適格性は robots.txt の Allow 設定が前提で、llms.txt はその上でコンテンツの優先順位や文脈を補足する役割を担う。詳細は /articles/robots-txt-vs-llms-txt-seo-impact-difference を参照。

Q9. ChatGPT-User と OAI-SearchBot はどう違いますか?

A. OAI-SearchBot は定期的なクロールで ChatGPT Search 用のインデックスを構築する。ChatGPT-User はユーザーが ChatGPT 上でリアルタイムに URL を指定したり、検索結果の詳細を取得したりする際にページを即時フェッチするクローラーだ。両方を Allow にすることで ChatGPT Search と ChatGPT のインライン引用の両方に対応できる。

Q10. CCBot を Disallow にすると影響がありますか?

A. CCBot は Common Crawl が運営する汎用クローラーで、多くの AI 企業が学習データの入手源として利用している。Disallow にしても直接的な検索ランキングや既存 AI サービスの引用への影響はほとんどないが、将来的な新モデルの学習データから除外される可能性がある。著作権・IP 保護を重視する場合は Disallow を推奨する。

参考文献

  1. Overview of OpenAI Crawlers(参照: 2026-06-09)
  2. Anthropic Crawlers – ClaudeBot, Claude-SearchBot, Claude-User(参照: 2026-06-09)
  3. Google Crawlers – including Google-Extended(参照: 2026-06-09)
  4. Perplexity AI – robots.txt(参照: 2026-06-09)
  5. ai-robots-txt / ai.robots.txt – Community Reference(参照: 2026-06-09)

関連用語

  • インデックス

    インデックスとは、クローラーが集めたページをGoogleがデータベースに登録すること。インデックスされて初めて検索結果に表示される対象になります。「索引」とイメージすると分かりやすい用語です。

  • llms.txt

    llms.txtとは、サイト運営者がAIクローラーに「このサイトの重要な情報はここ」と伝えるためのMarkdownファイルの提案。2024年9月にJeremy Howard氏が提唱し、急速に普及しつつある新しい標準です。

  • クローラー

    クローラーとは、Web上のページを自動巡回してデータを集めるプログラムのこと。Googleの「Googlebot」が代表例で、これに見つけてもらわないと検索結果に表示されません。

  • トークン

    トークンとは、LLMが文章を処理する最小単位。「単語」より細かく、英語なら約4文字 = 1トークン、日本語なら1〜2文字 = 1トークンが目安。API料金もトークン単位で決まります。

  • noindex

    noindexとは、ページに付けることで「このページを検索結果に表示しないでください」と検索エンジンに伝えるmetaタグ。低品質ページや会員専用ページに使い、サイト全体の評価を守ります。

  • Perplexity

    Perplexity(パープレキシティ)とは、回答に必ず引用元(出典URL)を表示する米国発のAI検索エンジン。2022年公開で急速に成長中。LLMOで「サイテーションされる」最初の主戦場として重視されています。

関連記事

最新記事

LLMモニタリングツール比較2026|AI回答引用を計測するおすすめツール7選 (llm-monitoring-tools-comparison-2026)
ツール比較基礎2026/06/07

LLMモニタリングツール比較2026|AI回答引用を計測するおすすめツール7選

LLMモニタリングツールを2026年最新版で比較。AI回答引用モニタリングツールのおすすめ7選を機能・料金・日本語対応で徹底整理。無料から有料まで目的別の選び方チェックリスト付き。

#LLMモニタリングツール#AI回答引用#モニタリングツール比較#LLMO
YouTube SEO 完全ガイド 2026 年版|雑学ショートから学べる検索流入の作り方 (youtube-seo-2026-japan-complete-guide)
SEO基礎2026/05/23

YouTube SEO 完全ガイド 2026 年版|雑学ショートから学べる検索流入の作り方

YouTube SEO の本質を 2026 年のアルゴリズムと AI 検索の文脈で再整理。雑学ショート動画運営者でも実践できる KW 選定・タイトル・サムネ・視聴維持率・Shorts と LLMO 引用の関係まで網羅した日本語ピラーガイド。

#YouTube SEO#YouTube アルゴリズム#YouTube Shorts#雑学チャンネル
YouTube 収益化 完全ガイド【2026 年版】6 つの収益モデルと月収目安の現実 (youtube-monetization-complete-guide-2026)
ツール比較基礎2026/05/17

YouTube 収益化 完全ガイド【2026 年版】6 つの収益モデルと月収目安の現実

YouTube 収益化を 2026 年時点の全 6 モデル(広告・Shorts・メンバーシップ・スパチャ・アフィリエイト・スポンサー)で体系化。YPP 条件・ジャンル別 RPM・月収目安まで、収益化までの最短ロードマップを解説。

#YouTube収益化#YPP#YouTubeパートナープログラム#RPM
動画 SEO 完全ガイド 2026|YouTube・Google・AI 検索の三軸最適化 (video-seo-complete-guide-2026)
ツール比較基礎2026/05/10

動画 SEO 完全ガイド 2026|YouTube・Google・AI 検索の三軸最適化

動画 SEO を YouTube・Google 検索・AI 検索の三軸で網羅。VideoObject スキーマ・字幕・動画サイトマップ・計測ツールまで25,000字で解説する2026年版決定ガイド。

#動画SEO#VideoObject#YouTube#AI検索
YouTube SEO × LLMO 完全ガイド|AI 検索時代の動画最適化【2026 年版】 (youtube-seo-llmo-complete-guide)
LLMO基礎2026/05/10

YouTube SEO × LLMO 完全ガイド|AI 検索時代の動画最適化【2026 年版】

YouTube SEO と LLMO を統合した動画最適化の決定版。Perplexity・ChatGPT・AI Overview への引用候補に押し上げられる戦略を25,000字で網羅する。

#YouTube SEO#LLMO#AI検索#動画最適化
無料キーワード調査ツール完全比較 12 選【2026 年版・トラフィック獲得用ハブ】 (free-keyword-tools-master-comparison-2026)
ツール比較基礎2026/05/09

無料キーワード調査ツール完全比較 12 選【2026 年版・トラフィック獲得用ハブ】

無料で使えるキーワード調査ツール 12 選を徹底比較。サジェスト精度・検索ボリューム精度・日本語対応を 3 軸で評価し、個人ブロガーから BtoB SaaS まで用途別の最強組み合わせを解説します。

#無料キーワードツール#キーワード調査#比較#2026

practice カテゴリの他の記事