Pythonのよく使うパッケージと、それについての気持ちです。
NumPy
行列計算。
いろんな行列とかテンソルの関数、メソッドはこれ準拠なので覚えないといけない。
とにかく演算がはやくて嬉しい。
Matplotlib
パラメータ職人になっていい感じのグラフを出す。
Rは使わないけど、ggplotのテーマが好き。
Examples, Turorialsでけっこう遊んでいて面白い(むかしそれでDentoo.lt発表した気がする)。
機能が足りないときはseabornを使ったり、ぐりぐり動かしたいときはPlotlyを使うこともある。
Pandas
DataFrame無しではもう生きていけない。
ちょっとしたデータの入出力もpd.read_csv()
使いがち。これわかりませんか?
デカいとDaskさんにも頑張ってもらったりする。しかし、こいつはかゆいところに手が届かない(Pandasであるけど、Daskにない関数がちらほらある)。
scikit-learn
正直ましんらーにんぐやるより、誤差測ったり、データの前処理に使うことが多い。
雑にSVM使ったり、雑にランダムフォレスト使ったりしがち。
けっこうSciPyも使ってあれこれすることもある。
PyTorch
みんな好みはいろいろあるけど、一番使うのはPyTorch。
NLP系のことをしがちなので、RNN系のモデルしか使わんけど……
Reccurent dropout の実装がないので、PyTorch-NLPの力を借りたりする。
NLTK
とりあえずこいつで、tokenizeしてstopword除去しておけばいい。便利。
最近だとspaCyのほうが多機能で高性能だけど、シンプルな処理はなれているからNLTKのほうが楽(体感)。
英語のデータばかり扱うのでNLTKだけど、日本語のライブラリ全然知らんにゃあ。
tqdm
ぷろぐれすばー。
計算時間が長いから進捗見てないと不安になる。
こいつは精神安定剤。