「有意水準ってどうやって決めるの?」「計算で求まるものなの、それとも決めるものなの?」統計を学び始めると、このような疑問が湧いてくることがよくあります。
有意水準は仮説検定の根幹をなす重要な設定値ですが、その「決め方」や「根拠」については意外と説明されていないことが多いものです。
本記事では、有意水準の求め方・計算方法・決め方を、統計的仮説検定・αレベル・第一種の過誤・検定力(検出力)の観点から整理してわかりやすく解説いたします。
これから統計を実践する方にも、理論を整理したい方にも役立つ内容をお届けします。
目次
有意水準は「計算で求まるもの」ではなく「研究者が事前に決定するもの」である
それではまず、有意水準の本質的な性格について解説していきます。
有意水準(αレベル、significance level)は、多くの人が「計算して求めるもの」と誤解しがちですが、実際には研究者が仮説検定の設計段階で意図的に選択・設定するものです。
p値のように「データを分析してから求まる」数値とは異なり、有意水準はデータを見る前に決定しなければなりません。
これが守られることで、検定の客観性と再現性が保証されるわけです。
有意水準αは、「第一種の過誤(本当は差がないのに差があると判断してしまう誤り)を何%まで許容するか」という研究者の判断によって事前に決定されます。この決定は研究分野の慣習・研究目的・リスク許容度などを総合的に考慮して行います。
最も一般的に使われるαの値はα=0.05(5%)とα=0.01(1%)ですが、これは慣習であり絶対的な正解ではありません。
有意水準の「決め方」の基本的な考え方
有意水準を決める際の基本的な考え方は、「第一種の過誤のリスク」と「第二種の過誤のリスク」のバランスをとることです。
αを小さく(厳しく)設定するほど第一種の過誤は減りますが、第二種の過誤(実際は差があるのに見逃す誤り)は増えるというトレードオフが生じます。
| 考慮要素 | αを小さくすべき場合 | αを大きくしてもよい場合 |
|---|---|---|
| 誤判断のリスク | 誤って有意とするコストが高い(医療・安全) | 探索的・予備的な研究 |
| 研究の段階 | 確証的研究・臨床試験 | 仮説生成・スクリーニング |
| サンプルサイズ | 大規模データが利用可能 | 小規模・コストが高い場面 |
| 分野の慣習 | 物理学・製薬(α=0.001以下も) | 社会科学・心理学(α=0.10も) |
慣習的な有意水準の選択肢
統計実践の現場では、いくつかの慣習的な有意水準が広く使われています。
α=0.10(10%)は探索的研究やスクリーニング目的でよく使われ、比較的緩やかな基準です。
α=0.05(5%)は社会科学・心理学・生命科学など多くの分野で最も標準的に使われる基準です。
α=0.01(1%)はより厳密な判断が求められる医学・製薬・安全基準で好まれる水準です。
これらはあくまでも慣習的な目安であり、研究の目的・リスク・文脈に応じて合理的に設定することが本来の姿です。
第一種の過誤と第二種の過誤|有意水準の設定との関係
続いては、仮説検定における2種類の過誤と有意水準の設定との関係を確認していきます。
過誤の概念を理解することが、αレベルを適切に設定するための核心となります。
第一種の過誤(αエラー)とは
第一種の過誤(Type I Error)とは、帰無仮説が真であるにもかかわらず、それを棄却してしまう誤りのことです。
「本当は差がないのに、差があると誤って判断する」状況に相当します。
有意水準αとはまさにこの第一種の過誤の発生確率の上限を設定したものであり、α=0.05なら「この誤りを犯す確率を最大5%に抑える」という意味になります。
第二種の過誤(βエラー)とは
第二種の過誤(Type II Error)とは、「本当は差があるのに、差がないと判断してしまう誤り」です。
この確率をβ(ベータ)と呼び、βを小さくするほど「効果を見逃しにくい」検定になります。
第二種の過誤は有意水準αを大きくするほど(基準を緩めるほど)減りますが、その代わり第一種の過誤が増えるというトレードオフが発生します。
過誤の整理:
第一種の過誤(α):帰無仮説が真 → 誤って棄却(「差なし」が正解なのに「差あり」と判断)
第二種の過誤(β):帰無仮説が偽 → 誤って採択(「差あり」が正解なのに「差なし」と判断)
正しい棄却(検定力=1−β):帰無仮説が偽 → 正しく棄却
正しい採択:帰無仮説が真 → 正しく非棄却
αとβのトレードオフ
αを0.05から0.01に変更する(基準を厳しくする)と、第一種の過誤は減りますが第二種の過誤は増えます。
この関係は、他の条件(サンプルサイズ・効果量)が一定の場合に必ず発生するトレードオフです。
このトレードオフを解消する最も有効な手段はサンプルサイズを増やすことであり、十分なサンプルを確保することで両方の過誤を同時に小さくすることが可能になります。
検定力(検出力)と有意水準の関係|サンプルサイズ計算への応用
続いては、検定力(power)が有意水準とどう関係し、実際のサンプルサイズ計算にどう活用されるかを確認していきます。
検定力とは何か
検定力(statistical power)とは、対立仮説が真のとき(実際に効果がある場合)に、帰無仮説を正しく棄却できる確率です。
検定力=1−βの関係があり、βが小さいほど検定力は高くなります。
慣習的に検定力は0.80(80%)以上が望ましいとされており、これはβ=0.20(第二種の過誤20%)に相当します。
検定力に影響する4つの要素
検定力は以下の4つの要素によって決まります。
| 要素 | 検定力への影響 |
|---|---|
| 有意水準α | αが大きいほど検定力は高まる |
| 効果量(Cohen’s dなど) | 効果量が大きいほど検定力は高まる |
| サンプルサイズn | nが大きいほど検定力は高まる |
| 検定の種類 | 片側検定は両側検定より検定力が高い |
適切なサンプルサイズの事前計算
研究を設計する際には、有意水準α・望む検定力(1−β)・想定される効果量を設定したうえで、必要なサンプルサイズを事前に計算します。
これを「検出力分析(power analysis)」と呼び、Gpower(無料ソフト)やRのpwr packageなどが広く使われています。
サンプルサイズを事前に計算せずに研究を始めると、必要なサンプルが不足して第二種の過誤が大きくなるリスクがあります。
特に規模の大きい臨床試験や社会調査では、この事前設計が倫理的・科学的に求められる場合が多いです。
有意水準の設定に関する現代的な議論
続いては、有意水準の設定をめぐる現代の統計学における議論を確認していきます。
統計学の世界では、従来のα=0.05という慣習に対して様々な見直しの動きが起きています。
「有意水準を0.005に下げるべき」という提案
2017年に著名な統計学者72名が連名で、有意水準の標準をα=0.005(0.5%)に変更すべきという論文を発表し、大きな話題となりました。
この提案の背景には、再現性の危機(多くの研究結果が再現されない問題)があり、α=0.05では偽陽性(誤って有意とする判定)が多すぎるという主張がありました。
一方でこの提案には「より小さなサンプルサイズで困難になる」「研究の多様性を阻害する」などの反論も多く、現在も議論が続いています。
p値を廃止すべきという意見も
一部の研究者や統計学者は、p値と有意水準による二項対立的な判定を廃止し、代わりにベイズ因子(Bayes factor)や効果量・信頼区間を中心とした評価体系に移行すべきと主張しています。
アメリカ統計学会(ASA)は2019年の声明で「統計的有意性というラベルと0.05という閾値への過度な依存をやめるべき」と提言しました。
有意水準は便利な判定基準ですが、それだけに依存した科学的判断は危うさをはらんでいるという認識が広まってきています。
実践的なアドバイス:αの設定に悩んだときには
実際の研究や分析でαをどう設定すべか迷ったとき、参考になる考え方を整理しましょう。
まず所属する分野の慣習(論文・学会の標準)を確認することが最初のステップです。
次に研究の目的が「探索的」か「確証的」かを明確にし、探索的ならα=0.10、確証的ならα=0.05または0.01を選ぶ目安があります。
そして誤判断のコスト(特に第一種の過誤がもたらすリスク)を考慮し、医療・安全分野では厳格なαを選択します。
最終的には、有意水準だけでなく効果量・信頼区間・検定力も合わせて報告・解釈することが、現代統計の標準的な実践となっています。
まとめ
本記事では、有意水準の求め方・計算方法・決め方を、統計的仮説検定・αレベル・第一種の過誤・検定力の観点から詳しく解説してきました。
有意水準αは「計算で求まるもの」ではなく、研究者が事前に設定する「判定基準の閾値」であることが最大のポイントです。
α=0.05や0.01という値は慣習的なものであり、研究の目的・分野・リスク許容度によって合理的に設定する必要があります。
第一種の過誤と第二種の過誤のトレードオフ、検定力との関係、サンプルサイズ計算への応用など、有意水準の設定は統計設計全体に深く関わっています。
現代では有意水準だけに頼らず、効果量・信頼区間・検定力を総合的に評価することが推奨されており、統計の実践においてこれらを意識することが信頼性の高い研究につながるでしょう。