区間推定とは

前々回、標本から母集団の平均や分散といったパラメータを求めるための点推定について学習しました。今回は区間推定について学習しましょう。

区間推定

点推定は式に当てはめれば母集団の推定値が1点で求まるためわかりやすいのですが、実際に使う上で問題もあります。通常、標本から計算した推定値が母集団のパラメータと完全に一致することはなく、標本サイズや標本のばらつき具合によって様々に誤差が発生します。区間推定では推定値をある範囲内でその母集団の推測値が収まるかを確率的に評価することでこの問題に対応しています。

例えば「ある農園のみかんをいくつか標本として重量を計測した結果、農園全体のみかんの平均重量は95gから105gの間に95%の確率で収まる。」といった具合に母集団の統計値を区間と確率で表現します。この例の95gから105gという区間を信頼区間、0.95(=95%)のことを信頼係数と呼びます。

母分散が既知の正規分布 母平均の区間推定

区間推定をするには状況に応じて定まった条件が満たされている必要があります。まずは以下2条件を満たす場合の母平均の区間推定について学習しましょう。

  • 正規分布である
  • 母分散が既知である

母集団Xが正規分布で母分散が判明している場合、以下の関係が成立します。

正規分布で母分散が既知
平均\(\mu\)、標準偏差\(σ\)の母集団\(X\)が正規分布である場合、標本平均\(\overline{X}\)の分布は平均\(\mu\)、標準偏差\(σ/\sqrt{N}\)の正規分布に近似できる。

どこかで見た公式ですね。前回の中心極限定理が使われており、ほぼそのままとなります。途中式は割愛しますが、上の公式から以下のように母平均\(\mu\)について信頼係数\(\alpha\)の信頼区間の公式を導出することができます。
\[
\overline{X} - Z_{\alpha/2} \sqrt{\sigma^2/N} < \mu < \overline{X} + Z_{\alpha/2} \sqrt{\sigma^2/N} \] なお、\(Z_{\alpha/2}\)は標準正規分布の\({\alpha/2} \times 100\)%点を表します。母平均\(\mu\)が\(\alpha\times 100\)%の確率で上の不等式の範囲に収まる、というわけです。

具体的な計算例

それでは具体的な計算をしてみましょう。


ある農園でみかん20個の重量を計測すると、以下のリストの通りとなった。この農園のみかんの重量は正規分布し、分散が例年400程度なのでその値を使用することとした。農園全体のみかんの平均重量について95%の信頼区間を求めてみる。

# 標本データ
samples = [128.4, 135.9, 126.5, 182.4, 157.6, 100.6, 176.4, 126.6, 146.1, 138.0, 167.7, 128.1, 156.1, 183.5, 133.2, 162.4, 169.0, 161.6, 127.7, 154.3]

標本サイズと標準正規分布の上側2.5%点を求め、公式に当てはめます。標準正規分布の%点を求める場合、stats.norm.ppfを使用します。

import numpy as np
from scipy import stats

# 母分散
sigma2 = 400
# 標本サイズ
n = len(samples)
# 標本平均
sample_mean = np.mean(samples)

# 標準正規分布の上側2.5%点
z_a = stats.norm.ppf(scale=1, loc=0, q=0.975)

# 信頼区間
x_0 = sample_mean - (z_a * (np.sqrt(sigma2 / n)))
x_1 = sample_mean + (z_a * (np.sqrt(sigma2 / n)))
print(x_0, x_1)

上のコードを実行してみると、この農園のみかんの平均重量は95%の確率で139.3gから156.9gの間に収まると評価することができます。