AISEO/LLMO分析
AIクローラーのrobots.txt設定とAI検索引用戦略【2026年版】 (ai-crawler-robots-txt-indexing-strategy)
practice最終更新日: 2026年6月9日初出: 2026年6月6日

AIクローラーのrobots.txt設定とAI検索引用戦略【2026年版】

GPTBot・ClaudeBot・PerplexityBotなど主要AIクローラーのrobots.txt設定を徹底解説。学習用と検索引用用を分けて制御し、AI検索での引用獲得を最大化する実践テンプレートを公開します。

#AIクローラー#robots.txt#AI検索対策#LLMO#クローラー制御
目次(46項目)

AIクローラーのrobots.txt設定とAI検索引用戦略【2026年版】

この記事の結論: AIクローラーには「学習用」と「検索引用用」の2種類があり、robots.txtでそれぞれ別々に制御できます。引用を増やしたいなら検索引用用のみ許可し、学習用はブロックするのが2026年の標準戦略です。

最終更新日: 2026年6月6日

はじめに

「robots.txtで全AIクローラーをブロックしたらAI検索に出なくなった」「逆に全部許可したら学習データに使われてしまった」という悩みを抱えるサイト運営者が増えています。

問題の根本は、AIクローラーを一律に扱おうとすることにあります。2026年現在、OpenAI・Anthropic・Googleはいずれも「学習用クローラー」と「検索引用用クローラー」を分離して提供しています。この違いを理解せずにrobots.txtを設定すると、ブロックしたいものは通り、引用されたいものは弾かれるという逆効果が起きます。

本記事では、AIクローラーの分類から始め、robots.txtの具体的な設定テンプレート、海外サイトの設定事例まで体系的に整理します。SEOLLMOを両立させるrobots.txt設計を、実装コードとともに解説します。

→ 詳しくはAI検索最適化ガイド

AIクローラーの2分類:学習用と検索引用用

まず、現在流通しているAIクローラーを「学習用」と「検索引用用」の2軸で整理します。この分類が設定の根拠になります。

学習用クローラー

モデルの訓練データとして収集するクローラーです。あなたのコンテンツが将来のモデルに「記憶」される可能性があります。

User-agent運営元主な用途
GPTBotOpenAIGPTモデルの学習データ収集
Google-ExtendedGoogleGemini・Bard向け学習データ
ClaudeBotAnthropicClaudeモデルの学習データ
CCBotCommon Crawlオープンデータセット構築
BytespiderByteDanceTikTok系AI学習データ
FacebookBotMetaLlama等Metaモデル学習用
Meta-ExternalAgentMetaMeta AIの学習・推論用(2026年3月から急増)
Applebot-ExtendedAppleApple Intelligence向け
cohere-aiCohereCommand系モデル学習用

検索引用用クローラー

リアルタイムでコンテンツを取得し、AI検索の回答生成や引用ソースとして使うクローラーです。許可するとAI検索の「引用元」として表示される機会が得られます。

User-agent運営元主な用途
OAI-SearchBotOpenAIChatGPT Searchのインデックス構築
ChatGPT-UserOpenAIChatGPTのオンデマンド取得
Claude-WebAnthropicClaude.aiでのリアルタイム参照
anthropic-aiAnthropicAnthropic製品の引用ソース取得
PerplexityBotPerplexityPerplexityの引用元クロール
Perplexity-UserPerplexityPerplexityのオンデマンド取得
YouBotYou.comYou.com AI検索の引用
AmazonbotAmazonAlexa・Amazonサービス向け

ポイント: Anthropicは2025年にClaudeBot(学習用)とClaude-Web(検索引用用)を分離しました。OpenAIもGPTBot(学習)とOAI-SearchBot(検索)を区別しています。同じ会社のクローラーでも目的が異なります。

→ 詳しくはSEO完全ガイド

2026年の標準設定テンプレート

戦略の基本は「学習用ブロック・検索引用用許可」です。以下が2026年時点での推奨テンプレートです。

バランス型(メディア・ブログ・SaaS向け)

# 全クローラーのデフォルト
User-agent: *
Allow: /

# ===== 学習用クローラー:ブロック =====
User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: FacebookBot
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: Applebot-Extended
Disallow: /

# ===== 検索引用用クローラー:明示的に許可 =====
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: Claude-Web
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Perplexity-User
Allow: /

Sitemap: https://example.com/sitemap.xml

全許可型(オープンソース・コミュニティサイト向け)

コンテンツの二次利用を歓迎するサイト向けです。引用機会を最大化できますが、学習データとしても使われます。

User-agent: *
Allow: /

Sitemap: https://example.com/sitemap.xml

全ブロック型(プレミアムコンテンツ・有料会員サイト向け)

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: Claude-Web
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: *
Allow: /

Sitemap: https://example.com/sitemap.xml

パス別制御型(無料+有料コンテンツ混在サイト向け)

# 有料会員エリアはすべてのAIクローラーをブロック
User-agent: GPTBot
Disallow: /premium/
Disallow: /members/

User-agent: OAI-SearchBot
Disallow: /premium/
Disallow: /members/
Allow: /

User-agent: ChatGPT-User
Disallow: /premium/
Disallow: /members/
Allow: /

User-agent: PerplexityBot
Disallow: /premium/
Disallow: /members/
Allow: /

User-agent: *
Allow: /

Sitemap: https://example.com/sitemap.xml

AIクローラーのrobots.txt実装で注意すべき3つの落とし穴

設定を間違えると「許可しているつもりがブロックされている」「ブロックしているつもりが素通りされている」という状態になります。

落とし穴1:ワイルドカードDisallowが個別Allowを上書きする

# NG パターン
User-agent: *
Disallow: /

User-agent: OAI-SearchBot
Allow: /        ← これは機能しない場合がある

*(全クローラー)でDisallow: /を指定した後に特定のクローラーだけAllowしようとしても、AIクローラーによっては*の全体ルールを優先して解釈します。全ブロック後の個別許可は、クローラーの実装依存で動作が不安定になるため、全許可をベースにして例外的にブロックするアプローチが安全です。

落とし穴2:User-agentの大文字・小文字の扱い

User-agent: gptbot    ← 小文字
User-agent: GPTBot    ← 公式の表記

# サーバーやクローラーによってはどちらか一方しか認識しない

Webサーバーがケースセンシティブなマッチングをしている場合、公式仕様と異なる表記のルールは無視されます。常に公式ドキュメントに記載されている表記(主に大文字始まり)に合わせます。

落とし穴3:WAFがrobots.txtより先にクロールをブロック

robots.txtで許可していても、WAF(Webアプリケーションファイアウォール)やCDNのボット対策機能がAIクローラーをブロックしている場合があります。Cloudflare・Akamai・AWS CloudFrontなどのセキュリティ設定で「Unknown bot」として遮断されているケースが実務では多く報告されています。アクセスログを確認してもAIクローラーが来ていない場合は、WAF側の設定を確認します。

海外サイトにおける設定事例と実態調査

Cloudflare調査(2025年)

Cloudflareが2025年に実施したグローバル調査では、AIクローラーはrobots.txtで最もブロックされているUser-agentグループになっています。GPTBot・ClaudeBot・CCBotへの完全ブロック率が特に高く、GooglebotやBingbotは部分ブロックが中心という対照的な状況が確認されました。

この傾向は日本よりも欧米で顕著で、欧州の報道メディアや出版社はGDPR等の著作権保護意識から学習用クローラーを積極的にブロックする一方、検索引用用は許可するという「分離戦略」を採用するケースが増加しています。

アユダンテによる国内調査(2025年10月)

国内のSEO専門企業アユダンテが実施したアクセスログ分析では、次の事実が確認されています。

  • Bytespiderが最も高頻度でアクセスし、小規模サイトでも1日300リクエスト以上を記録
  • 学習用クローラーは古い安定コンテンツを優先、検索引用用クローラーは最新コンテンツを優先してアクセス
  • robots.txtでブロック設定後、AIによる引用はほぼ即座に停止(キャッシュ由来の遅延が数時間〜2日程度)
  • 例外: OAI-SearchBotはブロック期間中もアクセスを継続するケースがあり、OpenAI公式ドキュメントとの矛盾が指摘された
  • Bytespiderはrobots.txtを無視し、IPブロックも困難という報告が複数確認された

重要な認識: robots.txtは「お願い」であり「ファイアウォール」ではありません。ルールを守る誠実なボットには有効ですが、悪意ある収集ボットは無視します。本当に守りたいコンテンツはサーバー側の認証で保護します。

サイトタイプ別の推奨設定マトリクス

サイトタイプ学習用クローラー検索引用用クローラー理由
ニュース・報道DisallowAllow著作権保護+引用流入確保
技術ブログ・メディアDisallowAllow知財保護+AI検索での認知拡大
BtoB SaaSDisallowAllowドキュメントは全許可、アプリはブロック
ECサイトAllow(商品ページ)Allowブランド露出最大化
有料会員サービスDisallow(全体)Disallow(会員エリア)コンテンツ資産の保護
個人ブログAllowAllow露出最大化が目的
学術・公的機関AllowAllow公共性のある情報は広く流通を

robots.txtとllms.txtの役割分担

robots.txtllms.txtは混同されがちですが、担う役割がまったく異なります。

ファイル問いへの回答主な読者強制力
robots.txtここをクロールしていいか?全クローラーあり(準拠ボットのみ)
sitemap.xmlサイトに何ページある?検索エンジンなし(推奨)
llms.txtサイトの主要コンテンツは何か?LLM・AIエージェントなし(案内板)

3つは競合せず、補完関係にあります。robots.txtでアクセス制御を定め、llms.txtでコンテキストを提供するという二段構えが、AI検索での引用を安定させる現時点での最善策です。

→ 詳しくはLLMOとは?AI検索時代の新SEO【完全ガイド】

設定後の検証方法

設定して終わりではなく、実際にAIクローラーが意図通りに動いているかを確認します。

ステップ1:robots.txtの構文確認

Google Search Consoleの「robots.txtテスター」で構文エラーを確認します。ただしAIクローラーの解釈はGooglebotと異なる場合があるため、あくまで構文の確認に留めます。

ステップ2:サーバーアクセスログの確認

設定後24〜72時間以内にサーバーログを確認し、対象クローラーのアクセスが意図通りになっているかを見ます。

# Nginxのアクセスログでクローラーごとのアクセスを集計する例
grep -E "GPTBot|ClaudeBot|PerplexityBot|OAI-SearchBot|ChatGPT-User" /var/log/nginx/access.log \
  | awk '{print $12}' \
  | sort | uniq -c | sort -rn

ステップ3:AI検索での引用状況の確認

月1回程度、自社名や代表的なキーワードをChatGPT・Perplexity・Claudeで検索し、自サイトが引用されているかを確認します。許可設定後に引用が増えたか、ブロック後に引用が止まったかを追跡します。

ステップ4:GA4での参照元トラッキング

GA4の「参照元」レポートでchat.openai.comperplexity.aiclaude.aiからの流入を確認します。AI検索からの流入はまだ全体の数%程度ですが、月次で伸びているかを見ます。

インデックスされるための本文側の施策

robots.txtでクローラーを「許可」しても、コンテンツそのものの品質がなければAI検索には引用されません。アクセス制御と並行して本文側も整備します。

一段落一論点の構造

AIは段落単位でコンテンツを抜き出して引用します。一つの段落に複数の主張を詰め込まず、「主張→根拠→例」という流れで1段落を完結させると引用されやすくなります。

数値・固有名詞・出典の明示

「引用するに値する」と判断されるには、具体的な数値・固有名詞・信頼できる出典が含まれていることが重要です。「増加した」よりも「前年比23%増加(○○社調査、2025年)」という書き方がAIに選ばれやすい傾向があります。

構造化データ(JSON-LD)の実装

ArticleFAQPageHowToなどの構造化データを実装しておくと、AIがコンテンツのカテゴリと信頼性を判断しやすくなります。特にFAQスキーマはAI Overviewでの引用との相関が複数のケーススタディで報告されています。

→ 詳しくはセマンティックHTMLとAI検索

海外ローカライズと多言語サイトの注意点

日本語コンテンツを英語圏のAI検索に引用させたい場合、あるいは多言語展開をしている場合は追加の考慮が必要です。

言語別のAIクローラーアクセス傾向

英語コンテンツはPerplexityBot・OAI-SearchBotのアクセス頻度が日本語コンテンツより高い傾向があります。理由は英語圏のユーザー数の多さと、AI学習データの言語バランスにあります。日本語サイトを英語圏向けにも展開する場合、英語版ページのrobots.txtルールを別途整理する必要があります。

hreflangとrobots.txtの整合

多言語サイトでは、hreflangでjaenx-defaultを指定しているのに、robots.txtで特定言語版のパスをブロックしていると矛盾シグナルが生まれます。例えば/en/配下のみOAI-SearchBotに許可している場合、英語版のみAI検索に引用されて日本語版が引用されない状態になります。

# 多言語サイトで日英両方を検索引用用クローラーに許可する例
User-agent: OAI-SearchBot
Allow: /ja/
Allow: /en/
Disallow: /members/

User-agent: PerplexityBot
Allow: /ja/
Allow: /en/
Disallow: /members/

サブドメイン構成の場合

jp.example.com(日本語)とen.example.com(英語)でサブドメインを分けている場合、robots.txtはサブドメインごとに独立したファイルが必要です。jp.example.com/robots.txtの設定はen.example.comには引き継がれません。

→ 詳しくはAI検索が引用しない原因と対策

AIクローラーと著作権・AI法制の動向

2026年現在、AIの学習データに関する法制度が各国で整備されつつあります。この動向は「ブロックすべきか許可すべきか」という判断にも影響します。

欧州AI法(EU AI Act)

2024年施行の欧州AI法では、学習データの透明性確保が義務化されました。これを受けて欧州の大手出版社・メディアはrobots.txtで学習用クローラーを一律ブロックする方向に舵を切っています。日本語サイトでも欧州ユーザーへのサービスを提供している場合、対応を検討する必要があります。

日本の著作権法改正

日本では2018年改正著作権法でAI学習目的のデータ収集が原則認められていましたが、2024年以降の議論では「営利目的の学習データ収集」に制限を設ける方向で議論が進んでいます。現時点では学習用クローラーをブロックすることが著作権保護の観点から選択肢となっています。

→ 詳しくはAI検索品質評価アルゴリズム

ハルシネーション対策としてのrobots.txt

AIが誤った情報を引用してしまう「ハルシネーション」を防ぐ観点からも、robots.txtは活用できます。

古い情報や廃止済みの情報が掲載されているページをAIクローラーにクロールさせ続けると、AIが古い情報を「現在も有効な情報」として引用するリスクがあります。

# 古いページや廃止コンテンツはAI引用から除外する例
User-agent: OAI-SearchBot
Disallow: /archive/
Disallow: /2020/
Disallow: /2021/
Allow: /

User-agent: PerplexityBot
Disallow: /archive/
Disallow: /2020/
Disallow: /2021/
Allow: /

特に仕様変更・価格変更・サービス終了などの情報が古いページに残っている場合は、AIクローラーに読ませないか、ページ自体を削除・更新することが重要です。

→ 詳しくはハルシネーション防止とSEO

よくある質問

Q1. robots.txtでAIクローラーをブロックすると検索順位は下がりますか?

A. Googlebot(通常の検索クロール)への影響はありません。GPTBotGoogle-ExtendedはGooglebotとは別のクローラーであり、これらをブロックしてもGoogle検索の順位には直接影響しません。ただしGoogle-ExtendedをブロックするとGeminiなど生成AI回答での引用機会は失います。

Q2. PerplexityBotを許可するとどんなメリットがありますか?

A. Perplexityは回答ソースとして引用したサイトへのリンクを表示する仕様のため、Perplexity経由の流入(いわゆる「Perplexity流入」)が発生します。AI検索の中でも参照流入がリンクとして表示される数少ないプラットフォームで、CVR(コンバージョン率)は自然検索より高いとする調査結果もあります。

Q3. ClaudeBot(Anthropic)はブロックしてもClaude.aiから引用されますか?

A. ClaudeBot(学習用)をブロックしても、Claude-Web(検索引用用)を許可していれば、Claude.aiでのリアルタイム参照は継続されます。Anthropicが学習用と検索引用用を分離しているため、両者を区別して設定することが重要です。

Q4. Bytespiderはrobots.txtを無視すると聞きましたが本当ですか?

A. 複数の調査でrobots.txtのDisallow設定を無視するケースが報告されています。IPベースのブロックも容易ではないため、完全な防御は難しい状況です。機密性の高いコンテンツはサーバー側の認証で保護するのが確実です。

Q5. robots.txtの変更はどれくらいで反映されますか?

A. Googlebotは通常数時間〜1日でrobots.txtの変更を検知します。AIクローラーの場合、アユダンテの調査ではブロック設定後「数時間以内に引用が停止した」ケースが多い一方、「数日かかった」ケースもあります。変更後はサーバーログで実際のアクセス状況を確認することが現実的です。

Q6. OAI-SearchBotとGPTBotの違いは何ですか?

A. GPTBotはGPTモデルの学習データ収集用、OAI-SearchBotはChatGPT Searchのインデックス構築用です。GPTBotをブロックすれば学習データに使われませんが、OAI-SearchBotまでブロックするとChatGPT Searchに引用されなくなります。「学習はNG、検索引用はOK」という場合はGPTBotのみブロックします。

Q7. 全ページではなく特定ページだけAIクローラーに許可する方法は?

A. AllowDisallowを組み合わせてパスレベルで制御できます。たとえば/blog/配下だけ許可する場合はAllow: /blog/Disallow: /を組み合わせます。ただし前述のワイルドカード問題に注意し、明示的な許可ルールが確実に機能しているかをアクセスログで確認します。

Q8. llms.txtとrobots.txtはどちらを先に設定すべきですか?

A. robots.txtが先です。llms.txtはAIへの「案内板」ですが、robots.txtでクロールを拒否しているページをllms.txtに書いても矛盾シグナルになります。まずrobots.txtでアクセス制御の基本方針を固め、その後llms.txtで許可したコンテンツのサマリを提供する順序が正しいです。

関連用語

関連記事

参考文献

  1. GPTBot - OpenAIOpenAI(参照: 2026-06-06)
  2. Does Anthropic crawl the web and how can site owners block the crawler?Anthropic(参照: 2026-06-06)
  3. robots.txt の概要 - Google Search CentralGoogle Developers(参照: 2026-06-06)
  4. 生成AIのクローラーのアクセス状況とrobots.txtへの反応を検証アユダンテ(参照: 2026-06-06)
  5. AIクローラーの種類と制御方法vicme(参照: 2026-06-06)
  6. The Complete robots.txt Guide for AI Crawlers in 2026Citevera(参照: 2026-06-06)
  7. Robots.txt Strategy 2026: Managing AI and Traditional CrawlersWitscode(参照: 2026-06-06)

関連用語

  • インデックス

    インデックスとは、クローラーが集めたページをGoogleがデータベースに登録すること。インデックスされて初めて検索結果に表示される対象になります。「索引」とイメージすると分かりやすい用語です。

  • hreflang

    hreflangとは、多言語サイトで「このページは何語版か」「他の言語版はどこにあるか」を検索エンジンに伝えるタグ。日本人には日本語版、英語ユーザーには英語版を表示するために使います。

  • llms.txt

    llms.txtとは、サイト運営者がAIクローラーに「このサイトの重要な情報はここ」と伝えるためのMarkdownファイルの提案。2024年9月にJeremy Howard氏が提唱し、急速に普及しつつある新しい標準です。

  • キーワード

    キーワードとは、ユーザーが検索エンジンやChatGPT等のAI検索に打ち込む単語・フレーズ。SEO・LLMO両対策の出発点。ビッグ/ロングテール選定基準と無料ツールを使った選び方を初心者向けに解説します。

  • クローラー

    クローラーとは、Web上のページを自動巡回してデータを集めるプログラムのこと。Googleの「Googlebot」が代表例で、これに見つけてもらわないと検索結果に表示されません。

  • 構造化データ

    構造化データとは、Webページの内容を検索エンジンが理解しやすい形式で記述したメタ情報。記事の著者・公開日、商品の価格・在庫などを機械可読にすることでリッチリザルトやAI引用の対象になります。

関連記事

最新記事

LLMモニタリングツール比較2026|AI回答引用を計測するおすすめツール7選 (llm-monitoring-tools-comparison-2026)
ツール比較基礎2026/06/07

LLMモニタリングツール比較2026|AI回答引用を計測するおすすめツール7選

LLMモニタリングツールを2026年最新版で比較。AI回答引用モニタリングツールのおすすめ7選を機能・料金・日本語対応で徹底整理。無料から有料まで目的別の選び方チェックリスト付き。

#LLMモニタリングツール#AI回答引用#モニタリングツール比較#LLMO
YouTube SEO 完全ガイド 2026 年版|雑学ショートから学べる検索流入の作り方 (youtube-seo-2026-japan-complete-guide)
SEO基礎2026/05/23

YouTube SEO 完全ガイド 2026 年版|雑学ショートから学べる検索流入の作り方

YouTube SEO の本質を 2026 年のアルゴリズムと AI 検索の文脈で再整理。雑学ショート動画運営者でも実践できる KW 選定・タイトル・サムネ・視聴維持率・Shorts と LLMO 引用の関係まで網羅した日本語ピラーガイド。

#YouTube SEO#YouTube アルゴリズム#YouTube Shorts#雑学チャンネル
YouTube 収益化 完全ガイド【2026 年版】6 つの収益モデルと月収目安の現実 (youtube-monetization-complete-guide-2026)
ツール比較基礎2026/05/17

YouTube 収益化 完全ガイド【2026 年版】6 つの収益モデルと月収目安の現実

YouTube 収益化を 2026 年時点の全 6 モデル(広告・Shorts・メンバーシップ・スパチャ・アフィリエイト・スポンサー)で体系化。YPP 条件・ジャンル別 RPM・月収目安まで、収益化までの最短ロードマップを解説。

#YouTube収益化#YPP#YouTubeパートナープログラム#RPM
動画 SEO 完全ガイド 2026|YouTube・Google・AI 検索の三軸最適化 (video-seo-complete-guide-2026)
ツール比較基礎2026/05/10

動画 SEO 完全ガイド 2026|YouTube・Google・AI 検索の三軸最適化

動画 SEO を YouTube・Google 検索・AI 検索の三軸で網羅。VideoObject スキーマ・字幕・動画サイトマップ・計測ツールまで25,000字で解説する2026年版決定ガイド。

#動画SEO#VideoObject#YouTube#AI検索
YouTube SEO × LLMO 完全ガイド|AI 検索時代の動画最適化【2026 年版】 (youtube-seo-llmo-complete-guide)
LLMO基礎2026/05/10

YouTube SEO × LLMO 完全ガイド|AI 検索時代の動画最適化【2026 年版】

YouTube SEO と LLMO を統合した動画最適化の決定版。Perplexity・ChatGPT・AI Overview への引用候補に押し上げられる戦略を25,000字で網羅する。

#YouTube SEO#LLMO#AI検索#動画最適化
無料キーワード調査ツール完全比較 12 選【2026 年版・トラフィック獲得用ハブ】 (free-keyword-tools-master-comparison-2026)
ツール比較基礎2026/05/09

無料キーワード調査ツール完全比較 12 選【2026 年版・トラフィック獲得用ハブ】

無料で使えるキーワード調査ツール 12 選を徹底比較。サジェスト精度・検索ボリューム精度・日本語対応を 3 軸で評価し、個人ブロガーから BtoB SaaS まで用途別の最強組み合わせを解説します。

#無料キーワードツール#キーワード調査#比較#2026

practice カテゴリの他の記事