統計分析入門
この講座は私自身の知識整理に加え、Pythonを通じて大学教養課程レベルの統計学の概要とデータ分析の基本について解説することを目的としています。対象読者としては、Pythonがある程度理解でき、かつ統計学を学んだことがないか、ほとんど忘れてしまった方を想定しています。
細かい数式や証明はなるべく排し、全体が俯瞰できるような内容を目指します。このため、純粋な統計学とは少々趣が異なる部分がありますが、その分早く学習が進められると思います。多変量解析や機械学習については本講座の対象外とし、別講座にて解説する予定です。
Pythonでの学習メリット
統計学は紙と鉛筆でも学習は可能ですが、Pythonを利用すると煩雑な計算に時間を取られることがないため、全体観、特に「統計を使って何ができるのか?」の理解が比較的スムーズに進むと思います。
また、様々なデータを簡単に可視化することができるため、データの分布を感覚的に捉えることができるようになります。
学習環境について
Pythonをデータ分析として利用する際、様々なツールが用意されています。基本的にはPython3.5以降で以下のライブラリが利用できることを前提としています。別ページで環境について補足します。
- IPython
- matplotlib
- pandas
- NumPy
- SciPy
目次
- Pythonで学ぶ統計分析入門
- Anaconda 利用する環境について
- Spyderの使い方
- データの種類と扱いについて
- 度数分布とヒストグラム
- データの中心を求める
- 分散と標準偏差 ばらつきを調べる
- 変動係数 ばらつきを比較する
- 確率変数と分布
- 正規分布
- パーセント点の求め方
- 記述統計と推計統計
- 点推定
- 中心極限定理
- 区間推定
- t分布を利用した母平均の区間推定/li>
- 仮説検定とは
- あとがき