統計分析入門のあとがきなど

補遺や補足

前回の仮説検定でPythonで統計を利用したデータ分析について入門的な内容の紹介は終わりとなります。これまで全17回に渡りお付き合いいただきありがとうございました。記述統計と推測統計について入門的な内容について解説してきましたが、このページではこれまでの講義で触れなかったことや、補足などについて書かせていただきます。

分布についての補足

本講座の推測統計の解説で正規分布のようなパラメトリックな分布であれば具体的に何ができるようになる、という点を中心に解説をすすめました。分析対象データが正規分布だと簡単に様々なことがわかるのですが、実際正規分布とみなせるデータはそうそう多くはないと思います。

事故などのめったに発生しないデータを扱うときに使うポアソン分布、待ち時間を推定する指数分布など業務データの分析で役に立つ分布がたくさんあります。正規分布の時と同様、分布がわかれば少数のサンプルから様々なことがわかります。

今回は管理人の余力の関係でそれらの分布については省略してしましたが、今後個々の事例について別途解説ページを加えたいと思います。

また(業種や研究分野にもよるのですが)実際にデータを扱うと分布がわからないデータが山ほど出てきます。現在私が携わっている仕事でよく扱うサーバーリソースや売上といったデータはほとんど分布がわかりません。

分布がわかると非常に便利なのですが、分布がわからない場合も往々にしてあるという点に留意してください。

多変量解析

業務によっては複数の値の関係を調べたりグルーピングを行うことがあります。こういった複数の変数について統計的な解析することを多変量解析と呼びます。今回は位置変数の統計学を中心として解説したため省略しましたが、(こちらも業種や研究分野にもよるのですが)マーケティング関連でデータ分析業務を行う場合は多変量解析のほうが多い印象があります。

非常に面白いトピックで色々役に立つ手法ですので、こちらについても今後まとまったコンテンツを作成する予定です。