CATEGORY データ分析

pandas入門 DataFrame htmlで入出力

スクレイピングしたデータを分析することがよくあると思いますが、pandasはurlやhtmlを指定するとtableタグを自動で見つけてDataFrameに格納してくれます。逆にDataFrameの内容をhtmlのtabl...

pandas入門 DataFrame excelファイルで入出力

非IT部門の場合、データ管理をWebではなくExcelで行っていることが多々あると思いますが、pandasではそういったExcelデータを吸い上げたりExcelで出力することができます。 事前準備 Excel入出力モジュ...

pandas入門 DataFrame CSV、TSV形式で入出力

様々な入出力が用意されているpandasのDataFrameですが、CSVやTSVで入出力することが一番多いのではないでしょうか。pythonの標準ライブラリにもcsvパーサがありますが、pandasを使用したほうがより...

pandas入門 DataFrameの入出力

pandasのDataFrameはこれまでのサンプルではハードコードして値を記述していましたが、実務ではCSVなどのファイルや、DB、Excelなどから入出力することが一般的です。 代表的な入出力 DataFrameと連...

pandas入門 DataFrameの行列を入れ替える

今回は短いトピックですが、DataFrameno行列を入れ替える方法です。DataFrame.Tを使用すると転置したDataFrameを取得することができます。 転置され、indexがcolumnに、columnがind...

pandas入門 ピボットテーブル

クロス集計に欠かせないのがピボットテーブルですが、pandasのピボットテーブルは合計、平均以外にも複雑な計算ができます。ですが、集計方法を指定する際にラムダ式もしくは関数オブジェクトを使うため、初見だと少し戸惑うかもし...

pandas入門 DataFrameの値を置換する

業務データはものによっては誤記や入力時のエラーなどで何度か置換をしてクレンジングする場合がありますが、pandasのDataFrameにはreplaceというメソッドを使用すると置換処理を行うことができます。 repla...

pandas入門 DataFrameをgroupbyで集計する

私が実務でよく使うものの1つがgroupbyで、例えば商品カテゴリー毎に合計やばらつきを確認したい場合などが挙げられます。無論、SQLでも同様のことは大抵できてしまいますが、例えば形態素解析した結果の単語ごとの集計を書け...

pandas入門 column(列名) index(行名)の変更

pandasで集計関数を使用すると同じ名前の列のDataFrameができますが、それらを統合する際列名をわかりやすくリネームする必要がでてきます。ここではcolumnやindexをリネームする方法について学習します。 D...

pandas入門 欠損値(NaN)

実務上でデータを取り扱うと、たまたまデータの取得に失敗したり、オペレーターの入力ミスなどで欠損値が発生することが多々あります。pandasの欠損値はnumpyのnanが使用されます。ここでは判定方法やクレンジングの方法に...