Pythonで学ぶ統計分析入門

統計分析入門

この講座は私自身の知識整理に加え、Pythonを通じて大学教養課程レベルの統計学の概要とデータ分析の基本について解説することを目的としています。対象読者としては、Pythonがある程度理解でき、かつ統計学を学んだことがないか、ほとんど忘れてしまった方を想定しています。

細かい数式や証明はなるべく排し、全体が俯瞰できるような内容を目指します。このため、純粋な統計学とは少々趣が異なる部分がありますが、その分早く学習が進められると思います。多変量解析や機械学習については本講座の対象外とし、別講座にて解説する予定です。

Pythonでの学習メリット

統計学は紙と鉛筆でも学習は可能ですが、Pythonを利用すると煩雑な計算に時間を取られることがないため、全体観、特に「統計を使って何ができるのか?」の理解が比較的スムーズに進むと思います。

また、様々なデータを簡単に可視化することができるため、データの分布を感覚的に捉えることができるようになります。

学習環境について

Pythonをデータ分析として利用する際、様々なツールが用意されています。基本的にはPython3.5以降で以下のライブラリが利用できることを前提としています。別ページで環境について補足します。

  • IPython
  • matplotlib
  • pandas
  • numpy
  • scipy

目次

  1. Pythonで学ぶ統計分析入門
  2. Anaconda 利用する環境について
  3. Spyderの使い方
  4. データの種類と扱いについて
  5. 度数分布とヒストグラム
  6. データの中心を求める
  7. 分散と標準偏差 ばらつきを調べる
  8. 変動係数 ばらつきを比較する
  9. 確率変数と分布
  10. 正規分布
  11. パーセント点の求め方
  12. 記述統計と推計統計
  13. 点推定
  14. 中心極限定理
  15. 区間推定
  16. t分布を利用した母平均の区間推定/li>
  17. 仮説検定とは
  18. あとがき