CATEGORY 応用編

mojimoji 半角⇔全角の変換

mojimoji 自然言語処理の前処理として全半角の変換を行うことが多いと思いますが、その際に便利なmojimojiというライブラリについて学習します。全半角処理ができるライブラリは色々あるのですが、その中でもmojim...

chardet 文字コードを判定する

日本語サイトのスクレイピング等でマルチバイト文字を含んだバイナリ文字列データを扱う場合、デコードのために文字コード(正確にはエンコーディングですが)が何なのかを事前に把握する必要がなります。ですが、Webサイト等ではそれ...

SQLite3入門

SQLiteはデータベースの一種で簡単に扱うことができます。MySQL等のRDBMSと比較すると機能は限定的ですが、圧倒的なスピードが特徴的で、大量データに対する分析で活用することもできます。Pythonには標準ライブラ...

pipの使用方法

pipとは pipとは、Pythonのパッケージ管理システムの1つで、サードパーティパッケージのリポジトリであるPyPI(Python Package Index)からダウンロードされインストールされます。PyPIについ...