SEO最終更新日: 2026年8月3日初出: 2026年5月4日

検索エンジンの仕組み｜クローラー・インデックス・ランキングを図解

Q: Q3. ページが多すぎるとSEOに不利ですか？

A. 量より質です。低品質ページが多いとクロールバジェットを浪費し、重要ページのインデックスが遅れます。不要ページはnoindexか削除を検討しましょう。1000ページ以上の大規模サイトでは「インデックス可能なページ数」と「実際にインデックスされている数」の比率を Search Console で定期監視するのが定石です。

Q: Q5. AI Overview に引用されるためには何をすれば良いですか？

A. (1) 冒頭に200字以内の簡潔な結論段落を置く、(2) 見出しを質問形式にする、(3) JSON-LD で Article FAQPage HowTo などの構造化データを設定する、(4) 一次情報・独自データ・スクリーンショットを入れる、の4点が基本です。逆に言うと、これらは従来 SEO の「E-E-A-T 強化」と方向性が同じなので、SEO 対策の延長線上で取り組めます。 → 詳しくはAI 検索時代のゼロクリック対策

Googleなど検索エンジンが「クロール→インデックス→ランキング」の3ステップで動く仕組みを初心者向けに解説。仕組みを知ればSEO施策の優先順位が一気に明確になります。

文責: LLMOツール編集部

#SEO基礎#検索エンジン#クローラー

目次（35項目）

はじめに
検索エンジンの3ステップ
ステップ1：クロール
Googlebot の動作原理
クローラーの種類
クロールを妨げる要因
クロールバジェットの考え方
ステップ2：インデックス
インデックスの判定基準
モバイルファーストインデックス
インデックスを妨げる要因
ステップ3：ランキング
ランキングシグナル 200+ の主要因子
コアアップデートとサイト品質
クロール状況の確認方法
SEOへの応用
失敗事例：詰まり段階別の典型パターン
ケース1：インデックスされない（クロールはされている）
ケース2：クロールすらされない
ケース3：コアアップデートで順位が消えた
ケース4：JavaScript レンダリング依存で本文が消える
ケース5：AI Overview に引用されない
生成AI検索との違い
AI 検索（AI Overview, ChatGPT Search）の仕組み
AI 時代の検索エンジンの進化
よくある質問
Q1. クロールされる頻度を上げるには？
Q2. インデックスされるまでどのくらいかかりますか？
Q3. ページが多すぎるとSEOに不利ですか？
Q4. JavaScript で動的にレンダリングしているサイトはクロールされますか？
Q5. AI Overview に引用されるためには何をすれば良いですか？
Q6. 競合と内容が似ていてもインデックスされますか？
関連用語
関連記事
参考文献・出典

検索エンジンの仕組み｜クローラー・インデックス・ランキングを図解

この記事の結論: 検索エンジンは「クロール→インデックス→ランキング」の3段階で動いています。SEOの問題はどの段階で詰まっているかを切り分けることで、解決が早くなります。

最終更新日: 2026-05-05

はじめに

「SEOを始めたばかりで何が起きているか分からない」という方向けに、検索エンジンの内部動作を順を追って解説します。仕組みを理解すると、自分のサイトがなぜ検索結果に出ないか、なぜ順位が上がらないかを論理的に診断できるようになります。 → 詳しくはSEOとは？初心者向け完全ガイド【2026年版】

Google公式の「検索の仕組み」ページでも同様のフレームワークが採用されており、SEO の議論はすべてこの3段階のどこかにマッピングできます。本記事では、各段階を「Googlebot の動作原理」「インデックスの判定基準」「200以上のランキングシグナル」のレベルまで掘り下げ、さらに 2026 年に主流となった生成AI検索（AI Overview、ChatGPT Search、Perplexity）との接続点まで解説します。

検索エンジンの3ステップ

Googleを含む検索エンジンは、次の3つのフェーズで動いています。

クロール: ロボットがWebを巡回してページを発見する
インデックス: 発見したページを解析・登録する
ランキング: 検索クエリに対して順位を決めて返す

このどこか1つが詰まっていると、検索結果に出ません。SEO 上のすべてのトラブルは、この3段階のどこで止まっているかを切り分けるところから始まります。次の表は、ありがちな症状とどの段階の問題かをまとめたものです。

症状	詰まっている段階	主な原因
Search Console に URL が出てこない	クロール	robots.txt ブロック / 内部リンク孤立 / サーバーが遅い
「クロール済み - インデックス未登録」と表示	インデックス	コンテンツ薄い / 重複 / canonical 競合
インデックスはされているが検索結果に出ない	ランキング	関連性不足 / E-E-A-T 不足 / 競合が強い
順位はあるが流入が伸びない	SERP 表示	タイトル・スニペット弱い / CTR が低い
AI 回答に引用されない	LLM 引用	構造化データ不足 / 一次情報の薄さ

→ 詳しくはGoogle Search Consoleの使い方｜初心者の最初の30分

ステップ1：クロール

クローラー（Googleではgooglebot）は、リンクをたどってWebページを発見・読み込むロボットです。新規ページが見つかる経路は主に3つあります。

既知のページからの内部リンク・外部リンク
sitemap.xmlからの送信
Google Search Console のURL検査からのリクエスト

クロールの頻度はサイトの「クロールバジェット」によって決まります。更新頻度が高く権威のあるサイトほど頻繁に訪れます。 → 詳しくはsitemap.xmlとrobots.txtの役割と作り方

Googlebot の動作原理

Googlebot は単一の巨大なクローラーではなく、複数のサブシステムが協調して動く分散システムです。一次情報の Google: Googlebot を要約すると、ざっくり次の流れになります。

URL Discovery（URL発見）: 既知のサイトからのリンク・サイトマップ・直接リクエストを通じて、クロール候補の URL を蓄える「URL Frontier」と呼ばれるキューに入れる。
Scheduling（スケジューリング）: 重要度・更新頻度・前回クロールからの経過時間・サーバー負荷を見て、いつクロールするかを決定する。
Fetching（取得）: HTTP リクエストを送って HTML を取得する。User-Agent は Googlebot/2.1。robots.txt を必ず先に確認する。
Rendering（レンダリング）: 必要に応じて Web Rendering Service (WRS) で Chromium 同等エンジンを使い JavaScript を実行し、最終 DOM を生成する。
Parsing（解析）: HTML / レンダリング結果からリンク・本文・メタデータを抽出し、新規 URL は再び URL Frontier に戻す。

ここで重要なのは、Fetching と Rendering が別フェーズで非同期 であるという点です。HTML だけ取得してインデックスする「初期インデックス」が先に走り、JavaScript レンダリングは後追いで行われます。SPA や CSR (Client-Side Rendering) で本文が JS 描画依存だと、初期インデックスでは中身がほぼ空の状態で登録され、レンダリングが終わるまで本来のコンテンツが評価されません。 → 詳しくはCore Web Vitals とは？2026年版の基準と改善方法

クローラーの種類

Web を巡回しているのは Googlebot だけではありません。2026 年現在は SEO だけでなく LLM への引用も視野に入る時代なので、主要クローラーを把握しておく必要があります。

クローラー	運営	用途	robots.txt での識別子
Googlebot	Google	Google 検索	`Googlebot`
Googlebot-Image	Google	Google 画像検索	`Googlebot-Image`
Google-Extended	Google	Gemini / AI Overview の学習	`Google-Extended`
Bingbot	Microsoft	Bing 検索 / Copilot	`bingbot`
GPTBot	OpenAI	ChatGPT 学習データ収集	`GPTBot`
OAI-SearchBot	OpenAI	ChatGPT Search のリアルタイム取得	`OAI-SearchBot`
ChatGPT-User	OpenAI	ユーザー指示で1回だけ取得	`ChatGPT-User`
ClaudeBot	Anthropic	Claude 学習データ収集	`ClaudeBot`
Claude-Web	Anthropic	Claude のリアルタイム取得	`Claude-Web`
PerplexityBot	Perplexity	Perplexity 検索	`PerplexityBot`
Applebot	Apple	Spotlight / Siri / Apple Intelligence	`Applebot`

Google-Extended や GPTBot は学習目的の収集なのでブロックしても従来 SEO には影響しません。一方 OAI-SearchBot Claude-Web PerplexityBot をブロックすると、生成AI検索のリアルタイム引用元から外れるため、LLMO を意識するなら原則ブロックしない設定が推奨されます。 → 詳しくはGoogle AI Overview とは？SEOへの影響と対策

クロールを妨げる要因

robots.txtで誤ってブロックしている（Google: robots.txt の概要）
サーバーが遅く、タイムアウトしている（Core Web Vitals の TTFB が大きい）
リンク切れ、孤立ページになっている
JavaScriptでしかリンクが描画されない（Googlebot のレンダリング動作を要確認）
HTTP 5xx エラーが連続していてクロールバジェットを絞られている
無限スクロール / 無限ファセット URL でクロールバジェットを浪費している

クロールバジェットの考え方

クロールバジェットは「Crawl Rate Limit（サーバー負荷の上限）」と「Crawl Demand（このサイトをどれだけ取りに行きたいか）」の2軸で決まります。中小サイト（数千ページ以下）では基本的に意識する必要はありませんが、EC サイトや大規模メディアでは下記が効いてきます。

浪費されやすい URL	対策
`?sort=` `?color=` などのファセット URL	`robots.txt` で `Disallow` / `noindex,follow`
ログイン後の動的ページ	`robots.txt` でブロック
内部検索結果ページ	`noindex`
旧ドメイン / 旧 URL	301 リダイレクトで集約
重複コンテンツ	canonical で正規化

ステップ2：インデックス

クロールしたページをGoogleは解析し、データベースに登録します。これがインデックスです。インデックスされて初めて検索結果に登場できます。

インデックス可否はSearch Consoleの「ページ」レポートで確認できます。「クロール済み - インデックス未登録」になっていれば、Googleが「重複・低品質」と判断したサインです。

ポイント: 2026年現在、Googleはすべてのページをインデックスするわけではありません。コンテンツの独自性と有用性が低いと、クロールしてもインデックスされない傾向が強まっています。これは Helpful Content Update 以降一貫して強化されている方針です。

インデックスの判定基準

Google は内部的に「このページをインデックスに残す価値があるか」を継続的に評価しています。公開情報と SEO 業界の実証研究から推定される判定軸は次の通りです。

判定軸	内容	影響度
独自性	他ページと重複していない一次情報	高
有用性	ユーザーの検索意図に答えているか	高
内部リンク	重要ページから内部リンクを受けているか	中
外部リンク	ドメイン外から参照されているか	中
鮮度	情報が古くなっていないか	中
ページ品質	スパム・自動生成コンテンツでないか	高
技術品質	クロール可能・レンダリング可能・モバイル対応	中

「クロール済み - インデックス未登録」が大量に発生しているサイトは、ほぼ確実に「独自性」「有用性」のスコアが低いと判断されています。リライトや統合で品質を底上げするか、不要ページを noindex で削るかの2択です。 → 詳しくはE-E-A-T とは？経験・専門性・権威性・信頼性の高め方

モバイルファーストインデックス

2023年に Google は完全にモバイルファーストインデックスへ移行済みです。つまり Google が見ているのは「モバイル版の HTML」だけです。

よくある事故	内容
モバイル版で hidden になっている本文	インデックス対象から外れる場合あり
モバイル版に内部リンクがない	リンクが評価されない
モバイル版に構造化データがない	リッチリザルト表示されない
モバイル版だけ `noindex`	サイト全体が消える
デスクトップ版だけ高品質画像	モバイル版の OGP / 画像評価が下がる

レスポンシブデザイン（同一 HTML / 同一 URL）であればこれらの事故はほぼ避けられますが、別 URL（m.example.com 形式）や動的配信を使っている場合は要注意です。

インデックスを妨げる要因

noindexタグが入っている
canonical が他URLを指している
重複コンテンツとみなされた
薄いコンテンツ（200字以下など）
ソフト 404（404 ではないが「ページが存在しない」とみなされる）
レンダリング後に本文が消える JavaScript 実装

ステップ3：ランキング

インデックスされたページを、ユーザーの検索クエリに対して並び替えるのがランキングです。Googleのランキングシステムガイドによれば 200 以上のシグナルが使われており、主なものは次のとおりです。

カテゴリ	主なシグナル
コンテンツ	関連性、独自性、E-E-A-T、検索意図への合致
リンク	被リンクの量と質、内部リンク構造
ユーザー体験	Core Web Vitals、モバイル対応、HTTPS
その他	鮮度、ローカル要素、パーソナライズ

2026年現在、AIを活用した「RankBrain」「BERT」「MUM」などのアルゴリズムが組み合わさって動いています。これらは個別のアルゴリズムというより、Googleが内部で組み合わせる「ランキング層」と捉えるのが実態に近く、外部から個別に最適化することはできません。

グループ	因子例
クエリ理解	同義語展開 / エンティティ認識 / 言語検出 / 検索意図分類
コンテンツ関連性	タイトル一致 / 本文一致 / 見出し階層 / セマンティック近接性
品質シグナル	E-E-A-T / 著者情報 / サイト評価 / Helpful Content の総合スコア
リンクシグナル	被リンクのドメイン多様性 / アンカーテキスト / 内部リンクの中心性
ユーザー行動	クリック率 / 滞在時間 / Pogo-sticking / リピート率
技術品質	Core Web Vitals / HTTPS / モバイル対応 / 構造化データ
文脈・パーソナライズ	位置情報 / 言語 / デバイス / 検索履歴 / 時間帯
鮮度	コンテンツ更新日 / トレンド連動度 / QDF (Query Deserves Freshness)

コアアップデートとサイト品質

Google は年に数回「コアアップデート」と呼ばれる大規模なランキング調整を行います。Google公式のコアアップデートガイダンスでは「アップデートで順位が下がっても特定の修正で復活するわけではなく、コンテンツ品質の総合的な向上が必要」と明示されています。

つまりランキングは「個別の小手先テクニック」より「サイト全体の質」で動きます。これは Google検索品質評価ガイドラインの評価軸とも一致しています。 → 詳しくはE-E-A-T とは？経験・専門性・権威性・信頼性の高め方

クロール状況の確認方法

自分のサイトの状態は、Google Search Consoleで次の項目をチェックします。

インデックス > ページ: インデックス数の推移
設定 > クロールの統計情報: クロール回数とエラー率
URL検査ツール: 個別ページの状態確認

これだけで「クロールされていない」「インデックスされていない」「順位が低い」のどれが問題か切り分けられます。

確認項目	見るべき指標	異常値の目安
インデックス済みページ数	推移グラフ	急減 = 品質低下 / 急増 = 自動生成混入
クロールリクエスト数	直近90日	減少 = サーバー応答悪化
平均応答時間	クロール統計	1000ms 超で警戒
ホストステータス	クロール統計	エラー継続でクロール抑制
ページエクスペリエンス	Core Web Vitals	LCP 2.5秒超 / INP 200ms超

→ 詳しくはGoogle Search Consoleの使い方｜初心者の最初の30分

SEOへの応用

仕組みが分かると施策の優先順位が見えます。

インデックス数が少ない → サイトマップ、内部リンク、コンテンツ品質
インデックスはされるが順位が低い → 検索意図、E-E-A-T、被リンク
順位はあるが流入が少ない → タイトル、メタディスクリプションのCTR改善

これを「3ステップフレームワーク」と呼びます。クライアント案件でもまず Search Console を見て、どの段階で詰まっているかを判定してから打ち手を決めます。

詰まり段階	優先施策	効果が出るまで
クロール	sitemap 整備 / robots.txt 修正 / 内部リンク追加	1〜2週間
インデックス	コンテンツ統合 / 重複削除 / canonical 修正 / リライト	2〜8週間
ランキング	E-E-A-T 強化 / 被リンク獲得 / 競合分析リライト	1〜6ヶ月
CTR	タイトル・スニペット改善 / 構造化データ追加	数日〜数週間
LLM 引用	構造化データ / 一次情報追加 / 簡潔な要約段落	数週間〜数ヶ月

失敗事例：詰まり段階別の典型パターン

実案件でありがちな失敗パターンを段階別に整理します。自分のサイトに当てはまるものがあれば、そこから手を打つのが最短ルートです。

ケース1：インデックスされない（クロールはされている）

症状: Search Console で「クロール済み - インデックス未登録」が大量。

原因: コンテンツの独自性が低い。AI で量産しただけの記事、競合の焼き直し、テンプレ文章の連発。

打ち手: 1ページずつリライトするより、似たテーマを統合して「決定版記事」を1本作るほうが復活が早い。残りは noindex か 301 で集約する。

ケース2：クロールすらされない

症状: 公開してから何週間経っても URL 検査で「URL は Google に登録されていません」のまま。

原因: 内部リンクからリーチできない孤立ページ / sitemap.xml に含まれていない / robots.txt でブロック / 親ディレクトリが noindex。

打ち手: トップページや関連記事から内部リンクを張る、sitemap.xml に追加して Search Console で再送信、robots.txt を robots.txt テスターで確認。 → 詳しくはsitemap.xmlとrobots.txtの役割と作り方

ケース3：コアアップデートで順位が消えた

症状: 特定の更新（例: March 2024 Core Update、2025 のスパムアップデート）以降、検索流入が半減。

原因: サイト全体の品質スコアが他競合に抜かれた。AI 生成コンテンツ・薄い記事の比率が高い、E-E-A-T を支える著者情報・実体験がない、外部リンクが極端に少ない。

打ち手: 個別ページの修正ではなくサイト全体の刷新が必要。低品質ページの削除 / 統合、著者情報・実体験の追加、一次情報のスクリーンショット追加など、サイト全体の平均品質を上げる。

ケース4：JavaScript レンダリング依存で本文が消える

症状: URL 検査の「公開URLをテスト」で見ると、本文が空 or 「Loading...」だけ表示される。

原因: CSR (Client-Side Rendering) で本文を fetch している、データ取得が遅すぎてレンダリングタイムアウト。

打ち手: SSR / SSG / Dynamic Rendering への切り替え、もしくは初期 HTML に最低限の本文を埋め込む。Next.js なら App Router の Server Component、Nuxt なら SSR モードを推奨。

ケース5：AI Overview に引用されない

症状: 検索順位は1位なのに AI Overview の引用元から外れる、ChatGPT Search で引用されない。

原因: 構造化データがない / 結論が長文の中に埋もれている / 一次情報がない / 文章が冗長。

打ち手: 冒頭に200字以内の簡潔な結論を置く、見出しを質問形式にする、JSON-LD で構造化、独自データ・スクリーンショット・経験談で一次性を出す。 → 詳しくはAI 検索時代のゼロクリック対策

生成AI検索との違い

ChatGPT Search や Perplexity のような生成AI検索では、ランキングではなく「引用元として選ばれるか」が成果を決めます。クロールとインデックスは従来通り必要ですが、ランキング層が「引用判断」に置き換わっているイメージです。

そのため、SEO 対策のうち「クロール可能にする・インデックス可能にする・E-E-A-T を高める」までは生成AI検索でも有効ですが、「キーワード密度」「内部リンクの数」など狭義のランキング操作は効果が薄くなります。両方に効く施策は コンテンツの質と構造の明確化 に絞られます。

AI 検索（AI Overview, ChatGPT Search）の仕組み

生成AI検索は内部的には「Retrieval-Augmented Generation (RAG)」と呼ばれる仕組みで動いています。流れを単純化すると以下の通りです。

ユーザーの質問を LLM が解釈し、必要な検索クエリに分解
検索インデックス（Google なら自社、ChatGPT Search なら Bing 由来）からトップ N 件を取得
取得したページの本文を LLM のコンテキストに投入
LLM が引用付きで回答を生成

つまり「ランキング上位に入る」だけでなく、「LLM が読みやすく、引用しやすい構造になっている」ことが追加要件になります。具体的には、

要件	効く施策
クエリに直接答える	冒頭に結論段落 / FAQ ブロック
文脈の理解しやすさ	見出し階層を明確化 / 1段落1テーマ
引用しやすさ	短い断片的な事実文 / 数値や日付の明記
エンティティ認識	構造化データ / 著者・組織名の一貫性
信頼性	一次情報 / 出典明記 / E-E-A-T

→ 詳しくはGoogle AI Overview とは？SEOへの影響と対策

AI 時代の検索エンジンの進化

検索エンジンは「リンクを並べる装置」から「質問に答える装置」へ進化しています。Google の歴史を振り返ると、おおよそ次のような流れです。

年代	主要シフト	中心アルゴリズム / 仕組み
〜2000年代前半	キーワードマッチ	単純な転置インデックス
2010年前後	リンク評価強化	PageRank / Penguin
2013年	自然文クエリ対応	Hummingbird
2015年	機械学習導入	RankBrain
2019年	文脈理解	BERT
2021年	マルチモーダル理解	MUM
2023年	生成AI 試験投入	SGE (Search Generative Experience)
2024年〜	生成AI 標準化	AI Overview / 検索結果と統合
2026年	エージェント型検索	LLM がツール呼び出しと検索を組み合わせて回答

この流れの中で SEO は「キーワード対策」→「コンテンツマーケ」→「E-E-A-T」→「LLMO」と発展してきました。検索エンジンの仕組みを理解しておけば、次のシフトが来たときも基礎は変わらないので応用できます。 → 詳しくはLLMOとは？生成AI検索時代の最適化完全ガイド

よくある質問

Q1. クロールされる頻度を上げるには？

A. 更新頻度を上げる、サイトマップを送信する、内部リンクを増やすが基本です。Search Consoleの「URL検査 > インデックス登録をリクエスト」も有効です。ただしインデックス登録リクエストは1日あたり数本まで、しかも「リクエストすれば必ずインデックスされる」わけではありません。重要ページに集中させるのが鉄則です。

Q2. インデックスされるまでどのくらいかかりますか？

A. 早くて数時間、遅いと数週間かかります。新規ドメインは特に時間がかかる傾向があります。「ドメイン年齢」よりも「サイト全体の信頼スコア」が効くため、運用開始から3〜6ヶ月は内部リンク・サイトマップ・継続更新でじっくり育てる必要があります。

Q3. ページが多すぎるとSEOに不利ですか？

A. 量より質です。低品質ページが多いとクロールバジェットを浪費し、重要ページのインデックスが遅れます。不要ページはnoindexか削除を検討しましょう。1000ページ以上の大規模サイトでは「インデックス可能なページ数」と「実際にインデックスされている数」の比率を Search Console で定期監視するのが定石です。

Q4. JavaScript で動的にレンダリングしているサイトはクロールされますか？

A. されます。ただし2段階インデックス（HTML 取得 → JS レンダリング）の遅延があるため、本文の主要情報は SSR / SSG で初期 HTML に出力するのが推奨です。Next.js なら App Router、Nuxt なら SSR、SvelteKit なら adapter-node などで対応します。クライアント側で fetch しているデータが SEO 対象なら必ず SSR 化してください。

Q5. AI Overview に引用されるためには何をすれば良いですか？

A. (1) 冒頭に200字以内の簡潔な結論段落を置く、(2) 見出しを質問形式にする、(3) JSON-LD で Article FAQPage HowTo などの構造化データを設定する、(4) 一次情報・独自データ・スクリーンショットを入れる、の4点が基本です。逆に言うと、これらは従来 SEO の「E-E-A-T 強化」と方向性が同じなので、SEO 対策の延長線上で取り組めます。 → 詳しくはAI 検索時代のゼロクリック対策

Q6. 競合と内容が似ていてもインデックスされますか？

A. ほぼされません。Google は重複・類似コンテンツを強く嫌います。同じ情報を扱うなら「独自の切り口」「一次データ」「実体験」「最新の更新日」のいずれかで差別化してください。AI で生成しただけの「焼き直し記事」は、Helpful Content Update 以降ほぼインデックスされなくなりました。