統計を学んでいると、「決定係数」と「相関係数」という言葉に必ずといっていいほど出会うでしょう。
どちらもデータの関係性を数値で表す指標ですが、その意味や使い方には明確な違いがあります。
「R²とrって何が違うの?」「相関係数を二乗すると決定係数になるって本当?」と疑問に思った方も多いのではないでしょうか。
本記事では、決定係数と相関係数の違いと関係性について、散布図や線形関係などの概念を交えながらわかりやすく解説していきます。
統計初心者の方から、改めて整理したいという方まで、ぜひ最後までご覧ください。
目次
決定係数と相関係数の違いを一言で言うと「説明力の範囲」にある
それではまず、決定係数と相関係数の違いについて解説していきます。
結論から述べると、相関係数は「2変数の線形関係の強さと方向」を示す指標であり、決定係数は「モデルがデータのばらつきをどれだけ説明できるか」を示す指標です。
この一文だけでは少しわかりにくいかもしれませんが、それぞれの定義を丁寧に確認することで、違いが鮮明になってくるでしょう。
相関係数(r)とは何か
相関係数は、英語では「correlation coefficient」と呼ばれ、一般的に小文字の「r」で表されます。
2つの変数XとYの間に、どれくらいの強さで線形の関係があるかを示す統計指標です。
値は必ず−1から+1の範囲に収まるという特徴があります。
相関係数rの値の目安
r = +1 :完全な正の相関(Xが増えるとYも増える)
r = 0 :相関なし(XとYに線形関係がない)
r = −1 :完全な負の相関(Xが増えるとYは減る)
一般的に |r| ≥ 0.7 で「強い相関」、|r| ≥ 0.4 で「中程度の相関」とされます。
散布図でイメージするとわかりやすく、点が右上がりにきれいに並ぶほどrは+1に近づき、右下がりに並ぶほど−1に近づきます。
点がバラバラに散らばっているほど、rは0に近い値になるでしょう。
相関係数は「方向性(正か負か)」と「強さ(絶対値の大きさ)」の2つの情報を同時に持っているのが大きな特徴です。
決定係数(R²)とは何か
決定係数は、英語では「coefficient of determination」と呼ばれ、大文字の「R²(アールの二乗)」で表されます。
回帰分析において、作成した回帰モデルが目的変数のばらつき(分散)をどれだけ説明できているかを示す割合です。
値は0から1の範囲に収まり、1に近いほどモデルの当てはまりが良いと判断されます。
決定係数R²の値の目安
R² = 1 :モデルがデータを完全に説明している
R² = 0.8 :データのばらつきの80%をモデルが説明できている
R² = 0 :モデルがデータをまったく説明できていない
分野によって基準は異なりますが、R² ≥ 0.7 で「良い当てはまり」とされることが多い。
たとえば決定係数が0.85であれば、「このモデルはデータのばらつきの85%を説明できている」という意味になります。
残りの15%は、モデルに含まれていない要因によるものと解釈されるでしょう。
両者の根本的な違いを整理する
相関係数と決定係数の根本的な違いを、わかりやすく表にまとめてみましょう。
| 項目 | 相関係数(r) | 決定係数(R²) |
|---|---|---|
| 記号 | r(小文字) | R²(大文字・二乗) |
| 値の範囲 | −1 〜 +1 | 0 〜 1 |
| 主な用途 | 2変数の線形関係の強さ・方向を確認 | 回帰モデルの当てはまりの良さを確認 |
| 方向性の情報 | あり(正・負) | なし |
| 使用場面 | 相関分析 | 回帰分析 |
| 関係 | 単回帰ではR² = r² | 単回帰ではR² = r² |
最も重要な違いは、相関係数が「関係の方向と強さ」を示すのに対し、決定係数は「説明力の割合」を示すという点です。
また、相関係数は2変数の対称な関係を見るのに適しており、どちらが原因・結果かを問いません。
一方、決定係数は回帰分析という「予測モデル」の文脈で使われ、説明変数が目的変数をどれだけ予測できるかという非対称な関係を評価する指標といえるでしょう。
R²とrの関係性:相関係数を二乗すると決定係数になる理由
続いては、R²とrの具体的な関係性を確認していきます。
「相関係数を二乗すると決定係数になる」という話を聞いたことがある方も多いでしょう。
これは単回帰分析(説明変数が1つの場合)においてのみ成立する関係です。
単回帰における R² = r² の証明イメージ
単回帰分析とは、1つの説明変数Xを使って目的変数Yを予測するモデルです。
このとき、決定係数R²は「回帰による変動÷全体の変動」として定義されます。
決定係数の基本的な定義式(単回帰の場合)
R² = 回帰による変動 ÷ 全体の変動
= Σ(ŷᵢ − ȳ)² ÷ Σ(yᵢ − ȳ)²
ここで ŷᵢ は予測値、ȳ はYの平均値、yᵢ は実測値
この式を展開していくと、単回帰においては R² = r²(相関係数の二乗)と一致することが数学的に示せます。
つまり、相関係数r = 0.9 であれば、決定係数 R² = 0.81 となります。
「XとYの相関が非常に強い(r=0.9)」ということは、「単回帰モデルがYのばらつきの81%を説明できる(R²=0.81)」ということと表裏一体の関係にあるでしょう。
単回帰と重回帰での扱いの違い
重要なのは、重回帰分析(説明変数が2つ以上の場合)では R² = r² の関係は成立しないという点です。
重回帰の場合、決定係数は複数の説明変数を総合した当てはまりの良さを示すものとなります。
この場合の決定係数を「重決定係数」と呼ぶこともあり、相関係数の単純な二乗では計算できません。
| 分析の種類 | 説明変数の数 | R² = r² の関係 | R²の呼び方 |
|---|---|---|---|
| 単回帰分析 | 1つ | 成立する | 決定係数 |
| 重回帰分析 | 2つ以上 | 成立しない | 重決定係数(または自由度調整済みR²) |
重回帰分析の文脈では、説明変数を増やすほど自動的にR²が高くなってしまうという問題があります。
そのため、説明変数の数を考慮して補正した「自由度調整済み決定係数(Adjusted R²)」を使うことが多いでしょう。
二乗することで失われる情報とは
相関係数rを二乗してR²を求める際に注意すべき点があります。
それは、二乗することで「正負の符号(方向性)」の情報が失われるという点です。
たとえば r = +0.8 でも r = −0.8 でも、二乗すれば R² = 0.64 となります。
決定係数だけを見ると「正の相関か負の相関か」がわからなくなってしまうのです。
これが、相関係数と決定係数を両方確認することが重要な理由の一つといえるでしょう。
相関係数rと決定係数R²は互いに補完し合う関係にあります。rは「方向と強さ」を、R²は「説明力の割合」を教えてくれます。単回帰ではR² = r²が成立しますが、重回帰では成立しないため、分析の文脈によって適切に使い分けることが重要です。
散布図で見る線形関係と統計指標の読み方
続いては、散布図を通じて線形関係と各統計指標の読み方を確認していきます。
散布図は、2変数の関係を視覚的に把握するための最も基本的なグラフであり、相関係数や決定係数を理解する上で非常に重要なツールです。
散布図と相関係数の関係を視覚的に理解する
散布図を見ると、点の散らばり方から相関係数の大小をある程度直感的に把握できます。
点が右上がりの直線に沿って密集しているほど、相関係数は+1に近づきます。
逆に点が右下がりに密集していれば、相関係数は−1に近い値になるでしょう。
| 散布図の見た目 | 相関係数rの目安 | 決定係数R²の目安 | 解釈 |
|---|---|---|---|
| 右上がりに密集した直線状 | 0.9 〜 1.0 | 0.81 〜 1.0 | 強い正の相関・高い説明力 |
| 右上がりだがやや広がっている | 0.5 〜 0.8 | 0.25 〜 0.64 | 中程度の正の相関 |
| 円状・ランダムに散らばっている | −0.3 〜 0.3 | 0 〜 0.09 | ほぼ無相関 |
| 右下がりに密集した直線状 | −0.9 〜 −1.0 | 0.81 〜 1.0 | 強い負の相関・高い説明力 |
ここで注目すべきは、正の強い相関でも負の強い相関でも、決定係数は同じように高くなるという点です。
散布図をきちんと確認することで、相関係数だけでは見えない「方向性」を視覚的に捉えられるでしょう。
線形関係と非線形関係の違いに注意
相関係数も決定係数も、基本的には「線形(直線的)な関係」を前提とした指標です。
この点を理解しておくことは非常に重要で、非線形の関係がある場合、相関係数が低くても実際には強い関係がある可能性があるためです。
たとえば、U字型の関係(二次関数的な関係)では、XとYの間に明確な関係があっても、ピアソンの相関係数はほぼ0になることがあります。
相関係数・決定係数を使う前に、必ず散布図を確認しましょう。数値だけを信頼してしまうと、非線形な関係を見落とす危険があります。散布図で全体の形を把握してから、各指標を解釈することが統計分析の正しい手順です。
外れ値が与える影響を知っておく
散布図を見る際に、もう一つ気をつけたいのが「外れ値」の存在です。
外れ値とは、他のデータから大きく離れた値のことで、外れ値が1つあるだけで相関係数が大きく変化してしまうことがあります。
たとえば、本来相関がほとんどないデータでも、右上の位置に1つ外れ値があると相関係数が高く見えてしまうことがあるでしょう。
このような「見かけ上の相関」に騙されないためにも、散布図で視覚的に確認する習慣が大切です。
統計指標を正しく読むためには、数値だけでなく散布図も必ずセットで確認することを強くお勧めします。
決定係数と相関係数を使い分けるための実践的な判断基準
続いては、決定係数と相関係数の使い分けについて、実践的な観点から確認していきます。
どちらを使えばいいのか迷うことも多いと思いますが、分析の目的によって明確に使い分けることが重要です。
「関係を調べたい」なら相関係数を使う
2つの変数の間に関係があるかどうかを調べたい場合、まず使うべきは相関係数です。
たとえば「気温とアイスクリームの売上には関係があるか」「勉強時間とテストの成績には関係があるか」といった問いに答えるのが相関係数の役割です。
相関係数は仮説検定と組み合わせることで、その関係が統計的に有意かどうかも確認できます。
相関係数を使うべき典型的なシーンをまとめると次のようになるでしょう。
| 分析の目的 | 適した指標 | 理由 |
|---|---|---|
| 2変数に関係があるか調べたい | 相関係数(r) | 方向と強さを同時に確認できる |
| 多変数の関係をまとめて見たい | 相関行列(各ペアのr) | 変数間の関係を一覧できる |
| 回帰モデルの精度を評価したい | 決定係数(R²) | モデルの説明力を割合で示せる |
| 複数の回帰モデルを比較したい | 自由度調整済みR² | 変数の数の違いを補正できる |
「予測モデルを評価したい」なら決定係数を使う
回帰分析でモデルを作成し、そのモデルがどれくらいデータに当てはまっているかを評価したい場合は、決定係数を使います。
「このモデルはYのばらつきの何%を説明できているか」という問いに直接答えてくれるのが決定係数の強みです。
ただし、決定係数だけを見てモデルの良し悪しを判断するのは危険で、残差のプロット確認や他の評価指標と組み合わせることが大切でしょう。
両方を組み合わせて分析の精度を高める
実際のデータ分析の現場では、相関係数と決定係数を別々に使うのではなく、両方を組み合わせて使うことが多いです。
まず相関係数で変数間の関係を確認し、次に回帰分析を行って決定係数でモデルを評価するという流れが一般的でしょう。
単回帰の場合は R² = r² の関係が成立するため、相関係数から決定係数を計算することも可能です。
大切なのは、それぞれの指標が「何を測っているのか」を正確に理解した上で使うことといえます。
指標の意味を理解せずに数値だけを見ても、正しい判断には結びつかないため、本記事で解説した基本的な考え方をしっかり身につけておくといいでしょう。
決定係数と相関係数に関するよくある誤解と注意点
続いては、決定係数と相関係数に関してよくある誤解と注意点を確認していきます。
これらの指標は便利な反面、誤った解釈をしてしまうケースも非常に多く見られます。
「相関があれば因果関係がある」は誤り
統計を学ぶ上で最も重要な注意点の一つが、「相関関係と因果関係を混同しない」ということです。
相関係数が高くても、それはあくまで「2つの変数が一緒に動く傾向がある」ことを示すだけであり、一方が他方の原因であるとは言えません。
有名な例として「アイスクリームの売上と溺死者数の相関が高い」というものがあります。
これはどちらも気温という第三の変数に影響を受けているためで、アイスクリームが溺死の原因ではないのは明らかでしょう。
このような見かけ上の相関を「疑似相関」と呼び、統計分析の落とし穴として常に意識しておく必要があります。
「決定係数が高ければモデルが良い」とは限らない
決定係数R²が高いからといって、必ずしも良いモデルとは言えません。
たとえば、説明変数をむやみに増やせば、意味のない変数であってもR²は上がってしまいます。
これを「過学習(オーバーフィッティング)」と呼び、R²が高くても実際の予測精度が低いモデルが出来上がってしまう危険性があります。
重回帰分析では、変数を追加するたびにR²が必ず上がるという性質があります。このため、重回帰では「自由度調整済みR²(Adjusted R²)」を使うことが推奨されます。自由度調整済みR²は、不必要な変数を追加するとむしろ下がる設計になっているため、モデルの本当の良さを評価するのに適した指標です。
指標の限界を知って正しく活用する
相関係数も決定係数も、あくまで「線形関係」を前提とした指標です。
データが非線形の関係を持っている場合には、これらの指標は実態を正確に反映しないことがあります。
また、サンプルサイズが小さい場合、相関係数や決定係数の値は不安定になりやすいという点も覚えておきましょう。
データ数が少ないと、たまたま高い相関係数が出てしまうこともあるため、統計的有意性の検定も合わせて確認することが重要です。
統計指標はあくまで分析を助けるツールであり、盲信せず批判的に見る姿勢が大切といえるでしょう。
まとめ
本記事では、決定係数と相関係数の違いと関係性について詳しく解説してきました。
改めて要点を整理すると、相関係数(r)は2変数の線形関係の強さと方向を−1〜+1で示す指標であり、決定係数(R²)は回帰モデルがデータのばらつきをどれだけ説明できるかを0〜1の割合で示す指標です。
単回帰においては R² = r² という美しい関係が成立しますが、重回帰ではこの関係は成立しないため、分析の種類に応じた理解が必要でしょう。
散布図を必ず確認しながら指標を読む習慣をつけ、相関関係と因果関係の混同・過学習などの落とし穴にも注意することが大切です。
決定係数と相関係数はどちらも統計分析の基礎中の基礎となる指標ですので、本記事を参考に、ぜひ正しい理解を深めていただければ幸いです。