日本語の分散表現の計算方法まとめ -

単語単位の分散表現

Word2vec
- 自然言語処理における分散表現の一つのオリジナル
- 基本原理くらいは知っていてもいいかもしれない
- gensimがよく使われる
Fasttext で文書分類問題までやったった
- fastと名前がついているだけあってfacebookが公開しているモデルは高速に動作する
- 分散表現とクラス分類に対応していたり、利便性が高い
- 特にこのモデルで利用されている分かち書きの特徴から未知語に強いとされている
日本語Wikipediaで学習済みのBERTが公開されているので使い方メモ
- Google の検索エンジンにも採用されている、らしい
- 自然言語処理の研究を大きく変えたモデル
- 関連する技術であるTransformerは自然言語処理だけでなく、画像処理の界隈にも流用された
- huggingfaceで日本語版のBERTも色々と公開されている
日本語に対応したT5
- この日本語版のモデルの作者が公開しているサンプルがわかりやすい
- また同じ作者がSBERTのモデルも公開している

自然言語処理 T5 BERT Sentece Transformers SBERT word2vec fasttext