AI検索最終更新日: 2026年6月25日初出: 2026年6月24日

AI引用センチメントスコアの計測・ベンチマーク完全ガイド【日本語サイト実測】

AI検索で自社が引用される際の文脈がポジティブか否かを測る「センチメントスコア」の定義・計測式・プラットフォーム別ベンチマーク・改善手順を日本語で体系的に解説。公開調査データを出典付きで引用。

目次（30項目）

はじめに
センチメントスコアとは何か
計測方法：手動プロンプト・有料ツール・自前スクリプトの3パターン
パターン1：手動プロンプトログ
パターン2：有料AEOトラッキングプラットフォーム
パターン3：自前スクリプト（APIベース）
ポジティブ・ネガティブ・中立の3軸での整理
プラットフォーム別（ChatGPT / Perplexity / Gemini）のセンチメント差
Perplexity
ChatGPT Search
Gemini / AI Overview
ベンチマーク値の読み方と日本語サイトの現状
引用と言及：センチメント測定の2軸管理
センチメント改善の具体手順
ステップ1：ネガティブ引用のソースを特定する
ステップ2：ネガティブ文脈の根拠を調べる
ステップ3：自社コンテンツのフレーミングを修正する
ステップ4：ポジティブな一次情報を強化する
ステップ5：外部言及のトーンをモニタリングする
よくある質問
Q1. センチメントスコアの具体的な計測式は何ですか？
Q2. 日本語サイトのセンチメントベンチマークの目安は何ですか？
Q3. 引用と言及でセンチメントの測り方はどう違いますか？
Q4. ネガティブセンチメントを検知したらどう対処しますか？
Q5. ChatGPTとPerplexityでセンチメントの傾向が異なる理由は何ですか？
Q6. センチメント計測はどの頻度で行うべきですか？
Q7. センチメントスコアとShare of Voiceはどう使い分けますか？
Q8. センチメント計測に日本語対応のツールはありますか？
関連用語
関連記事

AI引用センチメントスコアの計測・ベンチマーク完全ガイド【日本語サイト実測】

この記事の結論: AI検索で自社が「引用されているか」だけでなく「どのような文脈で語られているか」を把握するのがセンチメントスコアの役割だ。ポジティブ・中立・ネガティブの3軸で引用文脈を分類し、プラットフォーム別のベンチマーク値と照合することで、LLMOの改善優先度を精度よく絞り込める。

最終更新日: 2026年6月24日

はじめに

引用される回数を増やすだけがAI検索最適化ではない。Adobeが2026年3月に公開したデータによると、AI経由のトラフィックはコンバージョン率が非AI経由と比べて平均+42%高い。これは「AI検索で引用されたとき、ユーザーはすでに意図を固めた状態でサイトに来る」という事実を反映している。

しかし同時に重要なのは、引用される文脈だ。たとえばPerplexityが「このサービスには料金の透明性に課題がある」という文脈で自社を言及した場合、外部リンクは発生していても、その引用はブランドにとってマイナスに働く。このような引用文脈の質を数値化するのがセンチメントスコアの考え方だ。

日本語サイトに対するAI引用のセンチメント計測は、英語圏と比べてまだ整備が遅れている。本記事では計測方法を3パターン紹介し、プラットフォーム別の特性と改善手順を体系化する。独自の精密統計は持っていないため、公開されているベンチマークデータを出典付きで引用しながら、実務で使えるフレームワークとして構成した。

センチメントスコアとは何か

センチメントスコア（Sentiment Score）とは、AI回答内で自社ブランドや製品が言及・引用される際の「感情的なトーン」を数値化した指標だ。一般的には以下の3軸に分類される。

分類	定義	例
ポジティブ	肯定的・推薦的な文脈での言及	「〜は使いやすく信頼できる」
中立	事実の列挙や客観的な比較文脈	「〜は月額〇〇円で提供している」
ネガティブ	批判・懸念・否定的な文脈での言及	「〜はサポートへの不満が報告されている」

従来のSEOでは「リンクされているか」が評価軸だったが、AI検索では回答文の中で自社がどのように描写されるかがブランド認知を左右する。「引用=良いこと」ではなく、「引用の文脈」まで管理することがLLMOの実務では必須になりつつある。

センチメントスコアはcitation rate（引用率）や平均引用順位とは独立した軸であり、3指標をセットで管理することが推奨される。

計測方法：手動プロンプト・有料ツール・自前スクリプトの3パターン

パターン1：手動プロンプトログ

最もコストがかからず、すぐに始められる方法だ。スプレッドシートに計測プロンプトを30〜50本用意し（初回調査のベースラインとして標準的な本数）、各AIエンジンに実際に質問を入力して、引用文脈をテキストで記録する。

センチメント判定の手順

自社名・サービス名が含まれるAI回答のテキストをコピー
引用文脈を「ポジティブ/中立/ネガティブ」の3軸でラベリング
スプレッドシートに記録し、ラベル別の集計を月次で更新

スプレッドシート列構成

列	内容
プロンプトID	P001〜連番
プロンプト本文	実際に入力したクエリ
AIエンジン	Perplexity / AI Overview / ChatGPT Search
実行日	YYYY-MM-DD
言及有無	1 / 0
センチメント	positive / neutral / negative / なし
引用スニペット	該当文のコピー

集計式（Googleスプレッドシート例）：ポジティブ率 = =COUNTIF(F2:F100,"positive")/COUNTIF(E2:E100,1)

手動ログの限界は計測規模と作業コストだ。プロンプト数が100本を超えると、週次での手動実行は現実的でなくなる。

パターン2：有料AEOトラッキングプラットフォーム

Profound、Am I Cited、Semrush AI Toolkitなどのプラットフォームは、自動でAIエンジンにプロンプトを投入し、引用文脈を解析する機能を持つ。一部のツールはセンチメント分類を自動で行い、ダッシュボードでトレンドが確認できる。

有料ツールを選ぶ際のチェック項目：

日本語クエリ・日本語AIエンジン（AI Overviewの日本語版等）への対応状況
センチメント分類の精度（英語モデルが日本語テキストを誤判定するリスクがある）
引用とブランドメンション（外部リンクなしの言及）の区別管理

パターン3：自前スクリプト（APIベース）

OpenAI APIやPerplexity APIを使って定期的にプロンプトを実行し、出力テキストをPythonの感情分析ライブラリ（例：transformersのdistilbert）でスコアリングする方法だ。

概略フロー

# 擬似コード例（実装は環境に応じて調整）
import openai, json
from transformers import pipeline

sentiment_analyzer = pipeline("sentiment-analysis", model="koheiduck/bert-japanese-finetuned-sentiment")

for prompt in prompt_list:
    response = openai.chat.completions.create(...)
    ai_text = response.choices[0].message.content
    
    # 自社ブランド名が含まれる文を抽出
    brand_sentences = [s for s in ai_text.split("。") if "自社名" in s]
    
    for sentence in brand_sentences:
        score = sentiment_analyzer(sentence)
        results.append({"prompt": prompt, "sentence": sentence, "sentiment": score})

日本語テキストのセンチメント分析には、日本語ファインチューニング済みモデルを使うことが精度向上のポイントだ。英語ベースのモデルは日本語の敬語・婉曲表現に対して誤判定が多い。

ポジティブ・ネガティブ・中立の3軸での整理

3軸分類を実務で運用する際、「中立」を正しく定義することが重要だ。

ポジティブの典型例

「〜は業界内で信頼されているツールです」
「専門家がおすすめするのは〜です」
「〜を使えば〇〇の問題が解決できます」

中立の典型例

「〜の月額料金は〇〇円です」
「〜は2020年に設立されたサービスです」
「〜と〇〇の2社が市場で競合しています」

ネガティブの典型例

「〜については料金が高いという声がある」
「〜は初心者には設定が難しいとされています」
「〜のサポートは対応が遅いという報告があります」

注意が必要なのは「比較文脈」だ。「〜よりも〇〇の方が安い」という文で〜として登場する場合、自社がネガティブポジションに置かれている可能性がある。これを中立と誤分類すると、実態よりも良く見えるスコアになる。

実務では「比較ネガティブ」というサブカテゴリを設けて、単純な3分類に補足情報を加えると分析精度が上がる。

プラットフォーム別（ChatGPT / Perplexity / Gemini）のセンチメント差

AIプラットフォームによって、引用スタイルと文脈のトーンに差がある。公開データをもとに特性を整理する。

Perplexity

外部リンク付き引用率が約77%と高い（Am I Cited調査）。回答スタイルは情報収集型で、複数ソースを比較列挙する形式が多い。このため引用文脈は「中立〜ポジティブ」が多く、批判的な比較より事実列挙が中心になる傾向がある。

日本語サイトの場合、Perplexityの日本語対応は進んでいるが、英語コンテンツを参照するケースも多く、日本語サイト固有のセンチメントが読み取られにくい場合がある。

ChatGPT Search

外部リンク付き引用率は約31%（SearchEngineLand調査）とPerplexityより低い。その代わり、回答文に統合された形でブランドが言及されることが多い。「引用（外部リンクあり）」と「言及（リンクなし）」を区別して計測することが、ChatGPTのセンチメント把握には特に重要だ。

文体的には推奨・比較・説明の3パターンが多く、ポジティブな推薦文脈でのブランド登場と、中立的な説明文脈での登場の両方が存在する。

Gemini / AI Overview

Google AI Overviewは、検索クエリに対して自然検索上位のコンテンツを参照する傾向が強い。このためSEO基盤が弱いサイトは引用されにくく、引用された場合でも検索意図に直結した中立〜ポジティブな文脈が多い。

3エンジンの比較では、プラットフォームごとに同一プロンプトを実行し、センチメント分類を横断比較することが推奨される。特定エンジンでネガティブ引用が集中する場合、そのエンジンが参照するコンテンツソースに問題がある可能性が高い。

ベンチマーク値の読み方と日本語サイトの現状

英語圏の公開ベンチマークを参照しつつ、日本語サイトに適用する際の解釈を整理する。

参考ベンチマーク（公開データ）

指標	参考値	出典
AI経由CVR（非AI比）	+42%	Adobe Analytics 2026/3
Perplexity外部リンク率	約77%	Am I Cited調査
ChatGPT Search外部リンク率	約31%	SearchEngineLand
ベースライン計測推奨プロンプト数	30〜50本	AEO実務標準

日本語サイト固有のベンチマークデータは現時点で公開が限られているが、英語圏の調査を参考に以下の目安が提唱されている。

センチメント比率の実務目安

ポジティブ引用率が50%以上：ブランドの文脈管理が良好
中立引用率が40%程度：一般的な情報源として認知されている状態
ネガティブ引用率が10%超：具体的な改善対象コンテンツを特定して対処すべき

ただしこの目安はカテゴリによって大きく異なる。医療・金融・法律などのYMYL領域では、中立〜否定的な文脈でのエビデンス提示がむしろ信頼性を高める場合もある。

日本語サイト運営者が特に注意すべきは「翻訳由来のネガティブセンチメント」だ。英語で書かれた自社の批判的レビューがAIに参照され、日本語の回答に反映されるケースがある。このため日本語・英語両方でのセンチメント計測が実務上の推奨となる。

引用と言及：センチメント測定の2軸管理

引用（Citation）と言及（Mention）はセンチメントの測り方が異なる。実務では2軸で分けて管理することが定石とされている。

引用（Citation）：外部リンクを伴うソース参照。URLが明示されるため、どのページのどのコンテンツが参照されたかを特定できる。

言及（Mention）：外部リンクなしのブランド名・製品名への言及。「〜というサービスがあります」という形で登場するが、リンクは張られない。

センチメントの計測においては：

引用のセンチメント：引用されたページの内容に加え、AIが引用した文脈（なぜそのページを参照したか）が重要
言及のセンチメント：AIがどのような文脈でブランド名を使ったかが直接スコアに反映される

ブランドメンションの計測では、言及のセンチメントを引用と同等かそれ以上に重視する必要がある。なぜなら言及は引用より頻繁に発生し、リンクなしでもブランドイメージに大きく影響するためだ。

AI検索における引用と言及の違いについての詳細は関連記事を参照してほしい。

センチメント改善の具体手順

ネガティブセンチメントを検知した後の具体的な対処フローを整理する。

ステップ1：ネガティブ引用のソースを特定する

どのページが、どのプロンプトに対して、どのAIエンジンでネガティブ文脈で引用されているかを記録する。引用URLが確認できる場合は、そのページのコンテンツを優先的に見直す対象とする。

ステップ2：ネガティブ文脈の根拠を調べる

AIが参照しているネガティブな記述が、自社コンテンツ内のものか、外部（レビューサイト・Q&Aサイト等）のものかを分ける。外部由来の場合、コンテンツ改善だけでは解決できないため、対策の方向性が変わる。

ステップ3：自社コンテンツのフレーミングを修正する

自社コンテンツ内でネガティブな懸念を取り上げている場合（例：「〜という誤解がありますが」）、AI がその文章を文脈から切り取ってネガティブに分類することがある。懸念の提示と反論をセットで書き、結論ファーストで構成し直すことでセンチメントが改善しやすくなる。

ステップ4：ポジティブな一次情報を強化する

事例・実績・ユーザーの声を自社サイトに追加し、「ポジティブな引用候補」を増やす。特に具体的な数値・事実・比較結果を含むコンテンツは、AIが信頼できる情報源として上位引用する傾向がある。

ステップ5：外部言及のトーンをモニタリングする

Googleアラートやブランドメンションツールで外部サイトの言及をモニタリングし、ネガティブな言及が増えている場合はPRや情報発信で対処する。外部言及のセンチメントは時間差でAI引用のセンチメントに反映されるため、早期対処が有効だ。

よくある質問

Q1. センチメントスコアの具体的な計測式は何ですか？

ポジティブ率 = ポジティブ引用数 ÷ 総言及数、という比率形式が基本だ。たとえば50プロンプトで自社が30回言及され、そのうち18回がポジティブなら、ポジティブ率は18÷30=60%となる。加重スコア（ポジティブ=+1、中立=0、ネガティブ=-1）の合計を総言及数で割った形式を使うツールもあるが、比率形式の方が解釈が直感的だ。

Q2. 日本語サイトのセンチメントベンチマークの目安は何ですか？

現時点で日本語サイト専用の大規模ベンチマークは公表されていない。英語圏の実務標準として「ポジティブ50%以上・ネガティブ10%未満」が良好とされており、日本語サイトでも同程度を参考目安にするのが現実的だ。ただしカテゴリや競合状況で大きく異なるため、まず自社のベースラインを30〜50プロンプトで計測し、そこからの変化率で判断することを推奨する。

Q3. 引用と言及でセンチメントの測り方はどう違いますか？

引用（外部リンクあり）は参照ページのコンテンツが引用文脈の根拠になるため、ページ単位での改善が効きやすい。言及（リンクなし）はAIの学習データや外部評判が反映されることが多く、コンテンツ改善だけでなく外部のPRや評判管理も必要になる。計測では引用と言及を別列で管理し、それぞれのセンチメント率を独立して把握するのが定石だ。

Q4. ネガティブセンチメントを検知したらどう対処しますか？

まずネガティブ文脈の出典を特定する。自社コンテンツ由来なら結論ファーストに書き直し、否定的フレーミングを取り除く。外部レビュー由来なら、より権威性の高い自社コンテンツ（実績・事例・FAQ）を充実させ、AIが参照するポジティブな情報源の比率を高める。ネガティブ引用が特定エンジンに集中している場合は、そのエンジンが参照するソースを調査すると対策が絞り込みやすい。

Q5. ChatGPTとPerplexityでセンチメントの傾向が異なる理由は何ですか？

引用スタイルの違いが主な原因だ。Perplexityは情報収集型で中立的な比較列挙が多いのに対し、ChatGPT Searchはユーザーの意図に合わせた推薦・説明型の回答が多い。同一ブランドでもエンジンによってポジティブ率が10〜20ポイント異なることは珍しくない。エンジン別の分析を行わずに合算すると、対策の方向性がぶれるリスクがある。

Q6. センチメント計測はどの頻度で行うべきですか？

初回は30〜50プロンプトでベースラインを構築する。その後はコンテンツ改善を行った際や、月次の定期モニタリングとして実施するのが現実的だ。AIモデルのアップデートは引用文脈に影響を与えるため、大規模なモデル更新があった直後には臨時計測を行うことを推奨する。

Q7. センチメントスコアとShare of Voiceはどう使い分けますか？

Share of Voiceは「業界の会話の中で自社がどれだけ存在感を持つか」という量の指標だ。一方センチメントスコアは「存在感の質」を測る。Share of Voiceが高くてもネガティブセンチメント率が高ければ、むしろ認知がマイナスに働いている可能性がある。AI検索のShare of Voice計測と合わせて月次ダッシュボードで並行管理することを推奨する。

現時点でセンチメント分類を日本語ネイティブで提供するAEOツールは限られている。Profoundなど英語圏のプラットフォームは日本語クエリへの対応を進めているが、センチメント分類の精度は英語テキストより低い場合がある。自前スクリプトで日本語ファインチューニング済みのBERTモデル（例：koheiduck/bert-japanese-finetuned-sentiment）を使う方法が、現状では精度面で優れている。