ここからはデータの一部から全体を推測する推測統計を中心に学習を進めます。一旦数式やPythonコードは置いておき、まずは使用する用語について抑えましょう。
記述統計と推計統計
記述統計と推計統計
これまでの学習で平均や標準偏差といった統計量を計算し、与えられたデータ全体を表す特徴について学習しました。また、パラメトリックな分布だと平均や標準偏差といったパラメータさえ判明していれば分布の特徴を利用することが可能であることも学習しました。
ところが、実際にはそもそも全体のパラメータがわからない場合が多いのです。例えば、日本人全体の平均身長を求める場合、どうすればいいでしょうか?もちろん全日本人の身長を測って平均を求めればできなくもないですが、現実的には不可能ですよね。
こういった全体を知ることが難しい場合、部分から全体を推測する統計手法のことを推測統計と呼びます。また、前半で学習した与えられたデータに対して平均や標準偏差などを算出してデータの特徴を調べることを記述統計と呼びます。このページ以降は推計統計を中心に解説します。
- 記述統計:得られたデータの特徴を調べる
- 推測統計:得られたデータから全体の特徴を推測する
推測統計における得られたデータのことを標本もしくはサンプルと呼びます。また、標本のデータ数のことを標本サイズ、サンプルサイズなどと呼びます。また、標本を何回も取り出す作業を行うことがあります。この取り出す回数のことを標本数、サンプル数と呼びます。一方、標本抽出元の全体のことを母集団と呼びます。推測統計では主に推定と検定という2つの手法で標本から母集団を分析します。
用語と記号について
推測統計では平均や標準偏差を扱う場合、使用する用語と記号について注意が必要です。例えば、一言に平均といっても母集団の平均なのか標本の平均なのかわかりません。通常、母〇〇、標本〇〇と区別します。平均の場合だと母集団の平均が母平均、標本の平均が標本平均となります。また、一般的に母集団に関する統計量はギリシャ文字の小文字、標本に関するものはアルファベットの大文字を使用します。
統計量 | 母集団 ・ 記号 | 標本 ・ 記号 |
---|---|---|
平均 | 母平均 \(\mu\) | 標本平均 \(\overline{x} \) |
分散 | 母分散 \(\sigma^2\) | 標本分散 \(S^2 \) |
標準偏差 | 母標準偏差 \(\sigma\) | 標本標準偏差 \(S \) |
推定とは
標本から母集団の特徴、例えば平均や標準偏差といったパラメータを推測することを推定と呼びます。推定には点推定と区間推定という2つの手法があります。
点推定
点推定は、標本から母集団のパラメータをズバリ1点で求める手法です。例えば、「母集団のみかんの重量は100g」といった形となります。
区間推定
区間推定は母集団のパラメータの範囲を確率的に評価する方法です。例えば、「母集団のみかんの重量は90%の確率で95gから105gの間に収まる」といった範囲で表します。
検定とは
また、推測統計では推定以外に検定と呼ばれる母集団の特徴を評価、立証する手法があります。検定を使用すると「ある施策を実行した前後で効果があったといえるかどうか」、「2つの集団の性質が異なるといえるかどうか」といったことを確率的に評価することができます。