統計学・機械学習・データサイエンスの分野を学んでいると、必ずと言っていいほど登場する重要な概念が最尤推定(さいゆうすいてい)です。
「最も尤もらしい(もっともらしい)パラメータを求める方法」という名前の通り、観測データが得られる確率を最大化するようにモデルのパラメータを推定する手法です。
線形回帰・ロジスティック回帰・ニューラルネットワーク・ベイズ統計・時系列モデルなど、現代の統計・機械学習の多くの手法の背景に最尤推定の考え方が組み込まれています。
本記事では、最尤推定の読み方・定義・基本的な考え方を初学者にもわかりやすく解説し、尤度関数・対数尤度・最尤推定量との関係まで体系的に説明します。
なぜ「尤もらしい」パラメータを求めるのか、その直感的な意味から数学的な定義まで順を追って理解できる内容を目指しています。
ぜひ最後まで読んでいただき、最尤推定の全体像をつかんでください。
目次
最尤推定の結論|観測データが最も起きやすいパラメータを選ぶ手法
それではまず、最尤推定の基本的な意味と考え方の結論から解説していきます。
最尤推定とは、観測されたデータが実現される確率(尤度)を最大化するパラメータ値を推定値として選ぶ統計的推定の手法です。
「最尤」は「最も尤もらしい(もっともらしい)」という意味であり、英語では Maximum Likelihood Estimation(MLE)と呼ばれます。
最尤推定の直感的なイメージ
最尤推定の考え方を直感的に理解するために、コインを投げる例で考えてみましょう。
コイン投げの例
コインを10回投げたところ、表が7回・裏が3回出た。
このコインの「表が出る確率 p」を最尤推定で求める。
考え方:「p をどのような値にしたとき、この結果(7回表・3回裏)が最も起きやすかったか?」を考える。
10回投げて7回表が出る確率(尤度)= C(10,7) × p⁷ × (1-p)³
この値を p について最大化すると
最尤推定値 p̂ = 7/10 = 0.7
→「表が7回・裏が3回」という結果が最も生じやすいのは p = 0.7 のとき
この例のように、最尤推定は「実際に観測されたデータが最も起きやすかったと仮定したときのパラメータ値を推定値とする」という非常に直感的な考え方に基づいています。
最尤推定の基本的な定義
最尤推定の定義
確率モデルのパラメータをθとし、観測データ x₁, x₂, …, xn に対して尤度関数 L(θ) を
L(θ) = P(x₁, x₂, …, xn | θ) (データが得られる確率)
と定義する。このとき L(θ) を最大にするθの値
θ̂ = argmax L(θ)
を「最尤推定量(Maximum Likelihood Estimator)」と呼び、具体的に得られた推定値を「最尤推定値」と呼ぶ。
「argmax」は「引数(argument)の最大(maximum)」の略で、「この関数を最大化するθの値を求める」という意味です。
尤度関数と対数尤度の理解
続いては、最尤推定の計算に不可欠な「尤度関数」と「対数尤度」について確認していきます。
これらの概念を理解することが、最尤推定を実際に計算するための基礎となります。
尤度関数とは何か
尤度関数(Likelihood Function)は、パラメータθを変数として、観測データが得られる確率を表した関数です。
観測データ x₁, x₂, …, xn が互いに独立で同一の確率分布 f(x | θ) に従う場合、尤度関数は各データの確率(密度)の積として表されます。
尤度関数の定義(独立同分布の場合)
L(θ) = f(x₁|θ) × f(x₂|θ) × … × f(xn|θ)
= ∏ᵢ f(xᵢ|θ)
(∏ は積記号:i=1 から n まで掛け合わせる)
ここで重要なのは、尤度関数は「確率分布」ではなく「パラメータθの関数」として見ているという点です。
データ x₁, …, xn は観測済み(固定された値)であり、θを変化させたときにL(θ)がどう変わるかを調べます。
対数尤度とはなぜ使うのか
実際の最尤推定では、尤度関数 L(θ) を直接最大化する代わりに、対数尤度関数 log L(θ) を最大化する方が計算上便利です。
対数尤度を使う理由は三つあります。
一つ目は積が和に変わることです。log(A×B) = log A + log B という性質から、確率の積が対数の和に変わり計算しやすくなります。
二つ目は数値的な安定性です。非常に小さい確率の積はコンピュータ上でアンダーフロー(計算できないほど小さい値)を起こすことがありますが、対数を取ることでこの問題が解消されます。
三つ目は微分計算が簡単になることです。指数関数を含む確率分布の場合、対数を取ることで微分計算が大幅に簡単になります。
対数尤度関数の定義
ℓ(θ) = log L(θ) = log ∏ᵢ f(xᵢ|θ)
= Σᵢ log f(xᵢ|θ) (積の対数 → 対数の和)
対数関数は単調増加なので、L(θ) を最大化することと ℓ(θ) を最大化することは等価です。
つまり argmax L(θ) = argmax ℓ(θ)
尤度と確率の違い
最尤推定を学ぶ上で混乱しやすいのが「尤度」と「確率」の違いです。
確率はパラメータθを固定してデータxが変化したときの「データが得られる可能性の大きさ」を表します。
一方で尤度はデータxを固定してパラメータθが変化したときの「そのパラメータのもとでデータが得られる可能性の大きさ」を表します。
同じ式でも「何を固定して何を変数とするか」という解釈の違いが、確率と尤度の本質的な違いです。
「確率はデータについての関数、尤度はパラメータについての関数」と覚えておきましょう。
最尤推定の計算手順と具体的なアプローチ
続いては、最尤推定を実際に計算するための手順と考え方を確認していきます。
最尤推定の計算は基本的に「対数尤度を最大化する」という問題を解くことです。
最尤推定の一般的な計算手順
最尤推定の計算手順
【Step 1】 確率モデルを設定する
データがどの確率分布に従うかを仮定する(正規分布・二項分布・ポアソン分布など)
【Step 2】 尤度関数を立式する
L(θ) = ∏ᵢ f(xᵢ|θ)
【Step 3】 対数尤度関数を作る
ℓ(θ) = Σᵢ log f(xᵢ|θ)
【Step 4】 対数尤度をθで微分してゼロとおく(尤度方程式)
dℓ/dθ = 0
【Step 5】 方程式を解いてθ̂を求める
これが最尤推定量
【Step 6】 二次導関数で最大値であることを確認する
d²ℓ/dθ² < 0 なら最大値(θ̂ が最尤推定量)
Step 4で立てる「dℓ/dθ = 0」という方程式を尤度方程式(スコア方程式)と呼びます。
この方程式の解が最尤推定量です。
解析的に解けない場合は、ニュートン法・勾配降下法などの数値最適化手法を使って近似的に求めます。
最尤推定量の持つ重要な性質
最尤推定量は理論的に優れたいくつかの性質を持つことが知られており、それが最尤推定が広く使われる理由の一つです。
一致性とは、サンプル数 n が増えるにつれて最尤推定量が真のパラメータ値に確率収束するという性質です。
漸近正規性とは、n が大きいとき最尤推定量が正規分布で近似できるという性質で、信頼区間の計算に使われます。
漸近有効性とは、n が大きいとき最尤推定量の分散がクラメール・ラオ下限(推定量が持てる最小の分散)に一致するという性質です。
これらの性質から、最尤推定量は「データが十分に多い場合に最も効率的な推定量」と言えます。
最尤推定とベイズ推定・モーメント法との比較
続いては、最尤推定と他のパラメータ推定手法であるベイズ推定・モーメント法との違いを確認していきます。
各手法の特徴を比較することで、最尤推定の位置づけが明確になります。
モーメント法との比較
モーメント法(積率法)は、母集団の理論的なモーメント(平均・分散など)と標本のモーメントを等置することでパラメータを推定する方法です。
計算が比較的簡単ですが、最尤推定量と比べて統計的効率が劣る場合があります。
一方最尤推定は計算が複雑になることもありますが、漸近的に最も効率的な推定量を与えます。
ベイズ推定との比較
ベイズ推定は最尤推定とは根本的に異なる哲学に基づいています。
| 比較項目 | 最尤推定(MLE) | ベイズ推定(MAP等) |
|---|---|---|
| パラメータの扱い | 固定した未知の定数として扱う | 確率変数として扱う |
| 事前情報の利用 | 使わない | 事前分布として利用する |
| 少ないデータでの性能 | 過学習しやすい | 事前分布による正則化で安定 |
| 計算の複雑さ | 比較的シンプル | 事後分布の計算が必要で複雑 |
| 解釈 | 頻度主義的な解釈 | ベイズ主義的な解釈 |
事前情報がある場合・データが少ない場合にはベイズ推定が有利で、データが十分に多く事前情報なしに客観的な推定を行いたい場合は最尤推定が適しています。
なお、MAP推定(最大事後確率推定)はベイズ推定と最尤推定の中間的な手法で、一様事前分布を仮定した場合にMAP推定は最尤推定と一致します。
最尤推定が使われる代表的な場面
最尤推定は非常に広い範囲の統計・機械学習モデルで使われています。
線形回帰では正規分布の仮定のもとで最尤推定を行うと最小二乗法と等価になります。
ロジスティック回帰ではベルヌーイ分布・二項分布の最尤推定によって回帰係数を求めます。
ニューラルネットワークでは出力層に応じた確率分布(回帰には正規分布、分類にはソフトマックスとカテゴリカル分布)の最尤推定として交差エントロピー損失関数が導出されます。
混合ガウスモデル(GMM)ではEMアルゴリズムを使って最尤推定を反復的に解きます。
このように最尤推定はデータサイエンス・機械学習の中核を貫く考え方であり、「損失関数の最小化 = 対数尤度の最大化」という対応関係を理解することが、機械学習理論の深い理解につながります。
まとめ
本記事では、最尤推定の読み方・意味・定義・尤度関数・対数尤度・計算手順・他の推定手法との比較まで体系的に解説しました。
最尤推定の核心は「観測されたデータが最も生じやすくなるパラメータ値を推定値として採用する」という直感的かつ数学的に洗練された考え方にあります。
尤度関数の積を対数尤度の和に変換し、微分してゼロとおいた尤度方程式を解くという手順が最尤推定の基本的な計算の流れです。
一致性・漸近正規性・漸近有効性という優れた統計的性質を持ち、データが十分多い場合に最も効率的な推定を提供します。
線形回帰・ロジスティック回帰・ニューラルネットワークなど現代の機械学習・統計モデルの多くが最尤推定を基盤としており、この概念の理解はデータサイエンスの学習全体の土台となります。
本記事が最尤推定の理解の助けとなれば幸いです。