目次
この記事はコマンドラインをある程度利用できる方に向けて書いています。
コマンドラインがなにか分からないけど、pythonを使いたい方はGoogle Colaboratory というサービスの利用を検討してください。
実行環境の整備
- まずはpythonの実行環境を整えます。
- 今回はMac+コマンドラインの利用を前提としています。
- 詳細は以下のリンクを参考にします。
**形態素解析 **
- 次に前処理を行います。
- 日本語の場合は形態素解析を用いたトークナイズが必須となります。
- python 上で形態素解析を行えるライブラリとしてjanomeやginzaがあります。
- どちらもpipコマンドを実行することで簡単にインストールできます。
- 詳細は各ホームページを参照してください。
文や単語の特徴量
- 文はそのままでは計算機は単語や文章の意味を扱うことができません。
- そこでいくつかの方法で単語の意味を表現しようという試みがあります。
単語の出現頻度による特徴量
- 単語の出現頻度を特徴量として扱うものとして、TF-IDFがあります。
- TF-IDF の詳細や利用方法については工事中です。
- とりあえずは以下を参照してください。scikit-learn で tf-idf を求める
分散表現を用いる方法
- 単語の意味を分散表現(ベクトル)を用いて表そうという方法があります。
- すでにライブラリが整備されているのでそれらを利用するのが懸命です。
- 各種ライブラリの手順については以下のリンクを参考にしてください。