予測誤差の計算方法は？公式や求め方も！（統計学：回帰分析：残差：最小二乗法：RMSE：MAEなど）

データ分析や機械学習の実践において、予測誤差の計算は欠かせない作業のひとつです。

回帰分析や予測モデルを構築した後、そのモデルがどれだけ正確に予測できているかを評価するための指標として、RMSE・MAE・残差など様々な手法が使われています。

しかし「それぞれの計算式が違う」「どれを使えばいいかわからない」と感じる方も多いでしょう。

本記事では、予測誤差の基本的な意味と計算方法、残差・最小二乗法・RMSE・MAEなどの主要な指標の公式と求め方を、具体的な例を交えながらわかりやすく解説します。

予測誤差とは？基本的な意味と種類

それではまず、予測誤差の基本的な意味と種類について解説していきます。

予測誤差の定義

予測誤差（Prediction Error）とは、統計モデルや機械学習モデルが出力した予測値と、実際に観測された値との差のことです。

予測誤差＝実測値 − 予測値

英語表記：e = y − ŷ

y：実測値（観測値）、ŷ（ワイハット）：モデルによる予測値

予測誤差はプラスにもマイナスにもなり得ます。

プラスの場合は予測値が実測値より小さかった（過小推定）、マイナスの場合は予測値が実測値より大きかった（過大推定）ことを意味します。

残差と予測誤差の違い

統計学では「残差（Residual）」と「予測誤差（Prediction Error）」はほぼ同じ意味で使われますが、厳密には若干異なります。

用語	意味	使われる場面
残差（Residual）	モデルの学習データに対する実測値と予測値の差	回帰分析・モデルのフィッティング評価
予測誤差（Prediction Error）	モデルが見たことのないデータに対する予測のずれ	モデルの汎化性能評価・テストデータ評価

実用的には、両者を総称して「予測誤差」と呼ぶことが多く、本記事でも広い意味での予測誤差として統一して解説します。

予測誤差の種類と評価指標の体系

単一の観測に対する予測誤差だけでなく、モデル全体のパフォーマンスを評価するために、複数の予測誤差を集約した指標が使われます。

代表的な評価指標は以下のとおりです。

略称	正式名称	日本語
MSE	Mean Squared Error	平均二乗誤差
RMSE	Root Mean Squared Error	二乗平均平方根誤差
MAE	Mean Absolute Error	平均絶対誤差
MAPE	Mean Absolute Percentage Error	平均絶対パーセント誤差
R²	Coefficient of Determination	決定係数

最小二乗法と残差の計算

続いては、最小二乗法と残差の計算方法について確認していきます。

最小二乗法とは

最小二乗法（Ordinary Least Squares、OLS）は、各データ点の残差（予測誤差）の二乗和を最小化することで、最適な回帰直線（または超平面）を求める手法です。

線形回帰分析の基礎として広く使われており、統計学・データサイエンス・機械学習の入門として必ず学ぶ手法のひとつです。

最小二乗法の目的関数（最小化する量）：

S ＝ Σ(yᵢ − ŷᵢ)² ＝ Σeᵢ²（残差の二乗和）

単回帰の場合、推定された回帰式：ŷ ＝ a ＋ bx

傾き b ＝ Σ(xᵢ−x̄)(yᵢ−ȳ) ÷ Σ(xᵢ−x̄)²

切片 a ＝ ȳ − b × x̄

最小二乗法で求められた回帰直線は、残差の二乗和が最も小さくなるという意味で「最良」の線形推定量です。

残差の計算手順と具体例

【具体例】身長(x)と体重(y)のデータ（5名）

x: 160, 165, 170, 175, 180 (cm)

y: 55, 60, 65, 70, 75 (kg)

回帰式：ŷ ＝ −105 ＋ 1.0×x と推定された場合

各残差 eᵢ ＝ yᵢ − ŷᵢ：

x=160: ŷ=55, y=55, e=0

x=165: ŷ=60, y=60, e=0

x=170: ŷ=65, y=65, e=0

x=175: ŷ=70, y=70, e=0

x=180: ŷ=75, y=75, e=0

→ 完全に直線上に乗るデータのため残差はすべてゼロ

現実のデータでは各データ点が必ずしも回帰直線上に乗るわけではなく、残差が生じます。

残差の符号（プラス・マイナス）が特定のパターンを示す場合、線形モデルの仮定が成り立っていない可能性があるため、残差プロットによる確認が重要です。

残差分析の重要性

回帰モデルの診断において、残差分析（Residual Analysis）は非常に重要な手順です。

残差が正規分布に従っているか、均一分散（等分散性）が成り立っているか、時系列的な自己相関がないかなどを確認することで、モデルの妥当性を検証します。

主な残差分析の手法として、残差プロット（残差対予測値の散布図）、Q-Qプロット（正規性の確認）、ダービン＝ワトソン統計量（自己相関の検定）などがあります。

RMSE・MAE・MSEの計算方法と比較

続いては、RMSE・MAE・MSEの計算方法と比較について確認していきます。

MSE（平均二乗誤差）の計算式

MSE（Mean Squared Error、平均二乗誤差）は、各予測誤差の二乗平均です。

MSE ＝ (1/n) × Σ(yᵢ − ŷᵢ)²

n：データ数、yᵢ：i番目の実測値、ŷᵢ：i番目の予測値

例：誤差が 2, -1, 3, -2, 1 の場合

MSE ＝ (4 ＋ 1 ＋ 9 ＋ 4 ＋ 1) / 5 ＝ 19/5 ＝ 3.8

二乗することで大きな誤差が強調されるため、外れ値や大きな誤差に対して敏感な指標です。

ただし単位が元のデータの二乗になるため、直感的な解釈がしにくいという欠点があります。

RMSE（二乗平均平方根誤差）の計算式

RMSE（Root Mean Squared Error、二乗平均平方根誤差）は、MSEの平方根を取ったものです。

RMSE ＝ √MSE ＝ √[(1/n) × Σ(yᵢ − ŷᵢ)²]

上の例の続き：RMSE ＝ √3.8 ≒ 1.95

RMSEは元のデータと同じ単位で表されるため、「平均的な予測誤差の大きさ」として直感的に解釈しやすいという利点があります。

回帰モデルや時系列予測の評価指標として最も広く使われています。

MAE（平均絶対誤差）の計算式と特徴

MAE（Mean Absolute Error、平均絶対誤差）は、予測誤差の絶対値の平均です。

MAE ＝ (1/n) × Σ|yᵢ − ŷᵢ|

例：誤差が 2, -1, 3, -2, 1 の場合

MAE ＝ (2 ＋ 1 ＋ 3 ＋ 2 ＋ 1) / 5 ＝ 9/5 ＝ 1.8

MAEはRMSEと比べて外れ値の影響を受けにくく（ロバスト）、すべての誤差を均等に扱います。

実務的には、大きな誤差を特に重視する場合はRMSE、均等に評価したい場合はMAEを選ぶという使い分けが一般的です。

指標	公式	特徴	外れ値への感度
MSE	Σe²/n	二乗誤差の平均、最適化に使いやすい	高い
RMSE	√(Σe²/n)	元と同じ単位、解釈しやすい	高い
MAE	Σ\|e\|/n	絶対誤差の平均、ロバスト	低い
MAPE	Σ\|e/y\|/n×100%	相対誤差（%表示）	中程度