practice最終更新日: 2026年8月3日初出: 2026年6月6日

AIクローラーのrobots.txt設定とAI検索引用戦略【2026年版】

Q: Q1. robots.txtでAIクローラーをブロックすると検索順位は下がりますか？

A. Googlebot（通常の検索クロール）への影響はありません。GPTBotやGoogle-ExtendedはGooglebotとは別のクローラーであり、これらをブロックしてもGoogle検索の順位には直接影響しません。ただしGoogle-ExtendedをブロックするとGeminiなど生成AI回答での引用機会は失います。

Q: Q3. ClaudeBot（Anthropic）はブロックしてもClaude.aiから引用されますか？

A. ClaudeBot（学習用）をブロックしても、Claude-Web（検索引用用）を許可していれば、Claude.aiでのリアルタイム参照は継続されます。Anthropicが学習用と検索引用用を分離しているため、両者を区別して設定することが重要です。

Q: Q4. Bytespiderはrobots.txtを無視すると聞きましたが本当ですか？

A. 複数の調査でrobots.txtのDisallow設定を無視するケースが報告されています。IPベースのブロックも容易ではないため、完全な防御は難しい状況です。機密性の高いコンテンツはサーバー側の認証で保護するのが確実です。

Q: Q6. OAI-SearchBotとGPTBotの違いは何ですか？

A. GPTBotはGPTモデルの学習データ収集用、OAI-SearchBotはChatGPT Searchのインデックス構築用です。GPTBotをブロックすれば学習データに使われませんが、OAI-SearchBotまでブロックするとChatGPT Searchに引用されなくなります。「学習はNG、検索引用はOK」という場合はGPTBotのみブロックします。

Q: Q7. 全ページではなく特定ページだけAIクローラーに許可する方法は？

A. AllowとDisallowを組み合わせてパスレベルで制御できます。たとえば/blog/配下だけ許可する場合はAllow: /blog/とDisallow: /を組み合わせます。ただし前述のワイルドカード問題に注意し、明示的な許可ルールが確実に機能しているかをアクセスログで確認します。

GPTBot・ClaudeBot・PerplexityBotなど主要AIクローラーのrobots.txt設定を徹底解説。学習用と検索引用用を分けて制御し、AI検索での引用獲得を最大化する実践テンプレートを公開します。

文責: LLMOツール編集部

#AIクローラー#robots.txt#AI検索対策#LLMO#クローラー制御

目次（46項目）

はじめに
AIクローラーの2分類：学習用と検索引用用
学習用クローラー
検索引用用クローラー
2026年の標準設定テンプレート
バランス型（メディア・ブログ・SaaS向け）
全許可型（オープンソース・コミュニティサイト向け）
全ブロック型（プレミアムコンテンツ・有料会員サイト向け）
パス別制御型（無料+有料コンテンツ混在サイト向け）
AIクローラーのrobots.txt実装で注意すべき3つの落とし穴
落とし穴1：ワイルドカードDisallowが個別Allowを上書きする
落とし穴2：User-agentの大文字・小文字の扱い
落とし穴3：WAFがrobots.txtより先にクロールをブロック
海外サイトにおける設定事例と実態調査
Cloudflare調査（2025年）
アユダンテによる国内調査（2025年10月）
サイトタイプ別の推奨設定マトリクス
robots.txtとllms.txtの役割分担
設定後の検証方法
ステップ1：robots.txtの構文確認
ステップ2：サーバーアクセスログの確認
ステップ3：AI検索での引用状況の確認
ステップ4：GA4での参照元トラッキング
インデックスされるための本文側の施策
一段落一論点の構造
数値・固有名詞・出典の明示
構造化データ（JSON-LD）の実装
海外ローカライズと多言語サイトの注意点
言語別のAIクローラーアクセス傾向
hreflangとrobots.txtの整合
サブドメイン構成の場合
AIクローラーと著作権・AI法制の動向
欧州AI法（EU AI Act）
日本の著作権法改正
ハルシネーション対策としてのrobots.txt
よくある質問
Q1. robots.txtでAIクローラーをブロックすると検索順位は下がりますか？
Q2. PerplexityBotを許可するとどんなメリットがありますか？
Q3. ClaudeBot（Anthropic）はブロックしてもClaude.aiから引用されますか？
Q4. Bytespiderはrobots.txtを無視すると聞きましたが本当ですか？
Q5. robots.txtの変更はどれくらいで反映されますか？
Q6. OAI-SearchBotとGPTBotの違いは何ですか？
Q7. 全ページではなく特定ページだけAIクローラーに許可する方法は？
Q8. llms.txtとrobots.txtはどちらを先に設定すべきですか？
関連用語
関連記事

AIクローラーのrobots.txt設定とAI検索引用戦略【2026年版】

この記事の結論: AIクローラーには「学習用」と「検索引用用」の2種類があり、robots.txtでそれぞれ別々に制御できます。引用を増やしたいなら検索引用用のみ許可し、学習用はブロックするのが2026年の標準戦略です。

最終更新日: 2026年6月6日

はじめに

「robots.txtで全AIクローラーをブロックしたらAI検索に出なくなった」「逆に全部許可したら学習データに使われてしまった」という悩みを抱えるサイト運営者が増えています。

問題の根本は、AIクローラーを一律に扱おうとすることにあります。2026年現在、OpenAI・Anthropic・Googleはいずれも「学習用クローラー」と「検索引用用クローラー」を分離して提供しています。この違いを理解せずにrobots.txtを設定すると、ブロックしたいものは通り、引用されたいものは弾かれるという逆効果が起きます。

本記事では、AIクローラーの分類から始め、robots.txtの具体的な設定テンプレート、海外サイトの設定事例まで体系的に整理します。SEOとLLMOを両立させるrobots.txt設計を、実装コードとともに解説します。

→ 詳しくはAI検索最適化ガイド

AIクローラーの2分類：学習用と検索引用用

まず、現在流通しているAIクローラーを「学習用」と「検索引用用」の2軸で整理します。この分類が設定の根拠になります。

学習用クローラー

モデルの訓練データとして収集するクローラーです。あなたのコンテンツが将来のモデルに「記憶」される可能性があります。

User-agent	運営元	主な用途
`GPTBot`	OpenAI	GPTモデルの学習データ収集
`Google-Extended`	Google	Gemini・Bard向け学習データ
`ClaudeBot`	Anthropic	Claudeモデルの学習データ
`CCBot`	Common Crawl	オープンデータセット構築
`Bytespider`	ByteDance	TikTok系AI学習データ
`FacebookBot`	Meta	Llama等Metaモデル学習用
`Meta-ExternalAgent`	Meta	Meta AIの学習・推論用（2026年3月から急増）
`Applebot-Extended`	Apple	Apple Intelligence向け
`cohere-ai`	Cohere	Command系モデル学習用

検索引用用クローラー

リアルタイムでコンテンツを取得し、AI検索の回答生成や引用ソースとして使うクローラーです。許可するとAI検索の「引用元」として表示される機会が得られます。

User-agent	運営元	主な用途
`OAI-SearchBot`	OpenAI	ChatGPT Searchのインデックス構築
`ChatGPT-User`	OpenAI	ChatGPTのオンデマンド取得
`Claude-Web`	Anthropic	Claude.aiでのリアルタイム参照
`anthropic-ai`	Anthropic	Anthropic製品の引用ソース取得
`PerplexityBot`	Perplexity	Perplexityの引用元クロール
`Perplexity-User`	Perplexity	Perplexityのオンデマンド取得
`YouBot`	You.com	You.com AI検索の引用
`Amazonbot`	Amazon	Alexa・Amazonサービス向け

ポイント: Anthropicは2025年にClaudeBot（学習用）とClaude-Web（検索引用用）を分離しました。OpenAIもGPTBot（学習）とOAI-SearchBot（検索）を区別しています。同じ会社のクローラーでも目的が異なります。

→ 詳しくはSEO完全ガイド

2026年の標準設定テンプレート

戦略の基本は「学習用ブロック・検索引用用許可」です。以下が2026年時点での推奨テンプレートです。

バランス型（メディア・ブログ・SaaS向け）

# 全クローラーのデフォルト
User-agent: *
Allow: /

# ===== 学習用クローラー：ブロック =====
User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: FacebookBot
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: Applebot-Extended
Disallow: /

# ===== 検索引用用クローラー：明示的に許可 =====
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: Claude-Web
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Perplexity-User
Allow: /

Sitemap: https://example.com/sitemap.xml

全許可型（オープンソース・コミュニティサイト向け）

コンテンツの二次利用を歓迎するサイト向けです。引用機会を最大化できますが、学習データとしても使われます。

User-agent: *
Allow: /

Sitemap: https://example.com/sitemap.xml

全ブロック型（プレミアムコンテンツ・有料会員サイト向け）

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: Claude-Web
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: *
Allow: /

Sitemap: https://example.com/sitemap.xml

パス別制御型（無料+有料コンテンツ混在サイト向け）

# 有料会員エリアはすべてのAIクローラーをブロック
User-agent: GPTBot
Disallow: /premium/
Disallow: /members/

User-agent: OAI-SearchBot
Disallow: /premium/
Disallow: /members/
Allow: /

User-agent: ChatGPT-User
Disallow: /premium/
Disallow: /members/
Allow: /

User-agent: PerplexityBot
Disallow: /premium/
Disallow: /members/
Allow: /

User-agent: *
Allow: /

Sitemap: https://example.com/sitemap.xml

AIクローラーのrobots.txt実装で注意すべき3つの落とし穴

設定を間違えると「許可しているつもりがブロックされている」「ブロックしているつもりが素通りされている」という状態になります。

落とし穴1：ワイルドカードDisallowが個別Allowを上書きする

# NG パターン
User-agent: *
Disallow: /

User-agent: OAI-SearchBot
Allow: /        ← これは機能しない場合がある

*（全クローラー）でDisallow: /を指定した後に特定のクローラーだけAllowしようとしても、AIクローラーによっては*の全体ルールを優先して解釈します。全ブロック後の個別許可は、クローラーの実装依存で動作が不安定になるため、全許可をベースにして例外的にブロックするアプローチが安全です。

落とし穴2：User-agentの大文字・小文字の扱い

User-agent: gptbot    ← 小文字
User-agent: GPTBot    ← 公式の表記

# サーバーやクローラーによってはどちらか一方しか認識しない

Webサーバーがケースセンシティブなマッチングをしている場合、公式仕様と異なる表記のルールは無視されます。常に公式ドキュメントに記載されている表記（主に大文字始まり）に合わせます。

落とし穴3：WAFがrobots.txtより先にクロールをブロック

robots.txtで許可していても、WAF（Webアプリケーションファイアウォール）やCDNのボット対策機能がAIクローラーをブロックしている場合があります。Cloudflare・Akamai・AWS CloudFrontなどのセキュリティ設定で「Unknown bot」として遮断されているケースが実務では多く報告されています。アクセスログを確認してもAIクローラーが来ていない場合は、WAF側の設定を確認します。

海外サイトにおける設定事例と実態調査

Cloudflare調査（2025年）

Cloudflareが2025年に実施したグローバル調査では、AIクローラーはrobots.txtで最もブロックされているUser-agentグループになっています。GPTBot・ClaudeBot・CCBotへの完全ブロック率が特に高く、GooglebotやBingbotは部分ブロックが中心という対照的な状況が確認されました。

この傾向は日本よりも欧米で顕著で、欧州の報道メディアや出版社はGDPR等の著作権保護意識から学習用クローラーを積極的にブロックする一方、検索引用用は許可するという「分離戦略」を採用するケースが増加しています。

アユダンテによる国内調査（2025年10月）

国内のSEO専門企業アユダンテが実施したアクセスログ分析では、次の事実が確認されています。

Bytespiderが最も高頻度でアクセスし、小規模サイトでも1日300リクエスト以上を記録
学習用クローラーは古い安定コンテンツを優先、検索引用用クローラーは最新コンテンツを優先してアクセス
robots.txtでブロック設定後、AIによる引用はほぼ即座に停止（キャッシュ由来の遅延が数時間〜2日程度）
例外: OAI-SearchBotはブロック期間中もアクセスを継続するケースがあり、OpenAI公式ドキュメントとの矛盾が指摘された
Bytespiderはrobots.txtを無視し、IPブロックも困難という報告が複数確認された

重要な認識: robots.txtは「お願い」であり「ファイアウォール」ではありません。ルールを守る誠実なボットには有効ですが、悪意ある収集ボットは無視します。本当に守りたいコンテンツはサーバー側の認証で保護します。

サイトタイプ別の推奨設定マトリクス

サイトタイプ	学習用クローラー	検索引用用クローラー	理由
ニュース・報道	Disallow	Allow	著作権保護＋引用流入確保
技術ブログ・メディア	Disallow	Allow	知財保護＋AI検索での認知拡大
BtoB SaaS	Disallow	Allow	ドキュメントは全許可、アプリはブロック
ECサイト	Allow（商品ページ）	Allow	ブランド露出最大化
有料会員サービス	Disallow（全体）	Disallow（会員エリア）	コンテンツ資産の保護
個人ブログ	Allow	Allow	露出最大化が目的
学術・公的機関	Allow	Allow	公共性のある情報は広く流通を

robots.txtとllms.txtの役割分担

robots.txtとllms.txtは混同されがちですが、担う役割がまったく異なります。

ファイル	問いへの回答	主な読者	強制力
robots.txt	ここをクロールしていいか？	全クローラー	あり（準拠ボットのみ）
sitemap.xml	サイトに何ページある？	検索エンジン	なし（推奨）
llms.txt	サイトの主要コンテンツは何か？	LLM・AIエージェント	なし（案内板）

3つは競合せず、補完関係にあります。robots.txtでアクセス制御を定め、llms.txtでコンテキストを提供するという二段構えが、AI検索での引用を安定させる現時点での最善策です。

→ 詳しくはLLMOとは？AI検索時代の新SEO【完全ガイド】

設定後の検証方法

設定して終わりではなく、実際にAIクローラーが意図通りに動いているかを確認します。

ステップ1：robots.txtの構文確認

Google Search Consoleの「robots.txtテスター」で構文エラーを確認します。ただしAIクローラーの解釈はGooglebotと異なる場合があるため、あくまで構文の確認に留めます。

ステップ2：サーバーアクセスログの確認

設定後24〜72時間以内にサーバーログを確認し、対象クローラーのアクセスが意図通りになっているかを見ます。

# Nginxのアクセスログでクローラーごとのアクセスを集計する例
grep -E "GPTBot|ClaudeBot|PerplexityBot|OAI-SearchBot|ChatGPT-User" /var/log/nginx/access.log \
  | awk '{print $12}' \
  | sort | uniq -c | sort -rn

ステップ3：AI検索での引用状況の確認

月1回程度、自社名や代表的なキーワードをChatGPT・Perplexity・Claudeで検索し、自サイトが引用されているかを確認します。許可設定後に引用が増えたか、ブロック後に引用が止まったかを追跡します。

ステップ4：GA4での参照元トラッキング

GA4の「参照元」レポートでchat.openai.com・perplexity.ai・claude.aiからの流入を確認します。AI検索からの流入はまだ全体の数%程度ですが、月次で伸びているかを見ます。

インデックスされるための本文側の施策

robots.txtでクローラーを「許可」しても、コンテンツそのものの品質がなければAI検索には引用されません。アクセス制御と並行して本文側も整備します。

一段落一論点の構造

AIは段落単位でコンテンツを抜き出して引用します。一つの段落に複数の主張を詰め込まず、「主張→根拠→例」という流れで1段落を完結させると引用されやすくなります。

数値・固有名詞・出典の明示

「引用するに値する」と判断されるには、具体的な数値・固有名詞・信頼できる出典が含まれていることが重要です。「増加した」よりも「前年比23%増加（○○社調査、2025年）」という書き方がAIに選ばれやすい傾向があります。

構造化データ（JSON-LD）の実装

Article・FAQPage・HowToなどの構造化データを実装しておくと、AIがコンテンツのカテゴリと信頼性を判断しやすくなります。特にFAQスキーマはAI Overviewでの引用との相関が複数のケーススタディで報告されています。

→ 詳しくはセマンティックHTMLとAI検索

海外ローカライズと多言語サイトの注意点

日本語コンテンツを英語圏のAI検索に引用させたい場合、あるいは多言語展開をしている場合は追加の考慮が必要です。

言語別のAIクローラーアクセス傾向

英語コンテンツはPerplexityBot・OAI-SearchBotのアクセス頻度が日本語コンテンツより高い傾向があります。理由は英語圏のユーザー数の多さと、AI学習データの言語バランスにあります。日本語サイトを英語圏向けにも展開する場合、英語版ページのrobots.txtルールを別途整理する必要があります。

hreflangとrobots.txtの整合

多言語サイトでは、hreflangでja・en・x-defaultを指定しているのに、robots.txtで特定言語版のパスをブロックしていると矛盾シグナルが生まれます。例えば/en/配下のみOAI-SearchBotに許可している場合、英語版のみAI検索に引用されて日本語版が引用されない状態になります。

# 多言語サイトで日英両方を検索引用用クローラーに許可する例
User-agent: OAI-SearchBot
Allow: /ja/
Allow: /en/
Disallow: /members/

User-agent: PerplexityBot
Allow: /ja/
Allow: /en/
Disallow: /members/

サブドメイン構成の場合

jp.example.com（日本語）とen.example.com（英語）でサブドメインを分けている場合、robots.txtはサブドメインごとに独立したファイルが必要です。jp.example.com/robots.txtの設定はen.example.comには引き継がれません。

→ 詳しくはAI検索が引用しない原因と対策

AIクローラーと著作権・AI法制の動向

2026年現在、AIの学習データに関する法制度が各国で整備されつつあります。この動向は「ブロックすべきか許可すべきか」という判断にも影響します。

欧州AI法（EU AI Act）

2024年施行の欧州AI法では、学習データの透明性確保が義務化されました。これを受けて欧州の大手出版社・メディアはrobots.txtで学習用クローラーを一律ブロックする方向に舵を切っています。日本語サイトでも欧州ユーザーへのサービスを提供している場合、対応を検討する必要があります。

日本の著作権法改正

日本では2018年改正著作権法でAI学習目的のデータ収集が原則認められていましたが、2024年以降の議論では「営利目的の学習データ収集」に制限を設ける方向で議論が進んでいます。現時点では学習用クローラーをブロックすることが著作権保護の観点から選択肢となっています。

→ 詳しくはAI検索品質評価アルゴリズム

ハルシネーション対策としてのrobots.txt

AIが誤った情報を引用してしまう「ハルシネーション」を防ぐ観点からも、robots.txtは活用できます。

古い情報や廃止済みの情報が掲載されているページをAIクローラーにクロールさせ続けると、AIが古い情報を「現在も有効な情報」として引用するリスクがあります。

# 古いページや廃止コンテンツはAI引用から除外する例
User-agent: OAI-SearchBot
Disallow: /archive/
Disallow: /2020/
Disallow: /2021/
Allow: /

User-agent: PerplexityBot
Disallow: /archive/
Disallow: /2020/
Disallow: /2021/
Allow: /

特に仕様変更・価格変更・サービス終了などの情報が古いページに残っている場合は、AIクローラーに読ませないか、ページ自体を削除・更新することが重要です。

→ 詳しくはハルシネーション防止とSEO

よくある質問

Q1. robots.txtでAIクローラーをブロックすると検索順位は下がりますか？

A. Googlebot（通常の検索クロール）への影響はありません。GPTBotやGoogle-ExtendedはGooglebotとは別のクローラーであり、これらをブロックしてもGoogle検索の順位には直接影響しません。ただしGoogle-ExtendedをブロックするとGeminiなど生成AI回答での引用機会は失います。

Q2. PerplexityBotを許可するとどんなメリットがありますか？

A. Perplexityは回答ソースとして引用したサイトへのリンクを表示する仕様のため、Perplexity経由の流入（いわゆる「Perplexity流入」）が発生します。AI検索の中でも参照流入がリンクとして表示される数少ないプラットフォームで、CVR（コンバージョン率）は自然検索より高いとする調査結果もあります。

Q3. ClaudeBot（Anthropic）はブロックしてもClaude.aiから引用されますか？

A. ClaudeBot（学習用）をブロックしても、Claude-Web（検索引用用）を許可していれば、Claude.aiでのリアルタイム参照は継続されます。Anthropicが学習用と検索引用用を分離しているため、両者を区別して設定することが重要です。

Q4. Bytespiderはrobots.txtを無視すると聞きましたが本当ですか？

A. 複数の調査でrobots.txtのDisallow設定を無視するケースが報告されています。IPベースのブロックも容易ではないため、完全な防御は難しい状況です。機密性の高いコンテンツはサーバー側の認証で保護するのが確実です。

Q5. robots.txtの変更はどれくらいで反映されますか？

A. Googlebotは通常数時間〜1日でrobots.txtの変更を検知します。AIクローラーの場合、アユダンテの調査ではブロック設定後「数時間以内に引用が停止した」ケースが多い一方、「数日かかった」ケースもあります。変更後はサーバーログで実際のアクセス状況を確認することが現実的です。

Q6. OAI-SearchBotとGPTBotの違いは何ですか？

A. GPTBotはGPTモデルの学習データ収集用、OAI-SearchBotはChatGPT Searchのインデックス構築用です。GPTBotをブロックすれば学習データに使われませんが、OAI-SearchBotまでブロックするとChatGPT Searchに引用されなくなります。「学習はNG、検索引用はOK」という場合はGPTBotのみブロックします。

Q7. 全ページではなく特定ページだけAIクローラーに許可する方法は？

A. AllowとDisallowを組み合わせてパスレベルで制御できます。たとえば/blog/配下だけ許可する場合はAllow: /blog/とDisallow: /を組み合わせます。ただし前述のワイルドカード問題に注意し、明示的な許可ルールが確実に機能しているかをアクセスログで確認します。

Q8. llms.txtとrobots.txtはどちらを先に設定すべきですか？

A. robots.txtが先です。llms.txtはAIへの「案内板」ですが、robots.txtでクロールを拒否しているページをllms.txtに書いても矛盾シグナルになります。まずrobots.txtでアクセス制御の基本方針を固め、その後llms.txtで許可したコンテンツのサマリを提供する順序が正しいです。