日本語の分散表現の計算方法まとめ

単語単位の分散表現

  • Word2vec
    • 自然言語処理における分散表現の一つのオリジナル
    • 基本原理くらいは知っていてもいいかもしれない
    • gensimがよく使われる
  • Fasttext で文書分類問題までやったった
    • fastと名前がついているだけあってfacebookが公開しているモデルは高速に動作する
    • 分散表現とクラス分類に対応していたり、利便性が高い
    • 特にこのモデルで利用されている分かち書きの特徴から未知語に強いとされている
  • 日本語Wikipediaで学習済みのBERTが公開されているので使い方メモ
    • Google の検索エンジンにも採用されている、らしい
    • 自然言語処理の研究を大きく変えたモデル
    • 関連する技術であるTransformerは自然言語処理だけでなく、画像処理の界隈にも流用された
    • huggingfaceで日本語版のBERTも色々と公開されている
  • 日本語に対応したT5
    • この日本語版のモデルの作者が公開しているサンプルがわかりやすい
    • また同じ作者がSBERTのモデルも公開している

機械学習の基礎からモデルの仕組みまで体系的に学びたい方へ

[Read More]

poetry環境でstreamlitを実行する方法

症状

  • streamlitをpoetryを使ってインストールした場合に、streamlitが実行できない
  • poetry add streamlitでstreamlitを追加した場合、通常のシェルからはstreamlitのパスが通っていない
  • which streamlitの実行結果でなにもでてこない

対処

  • poetry からシェルを実行する
  • poetry shell
  • streamlit run sample.py
  • streamlitコマンドが実行できるようになる
  • 仮想環境にstreamlitをインストールした場合には通常のシェルからはstreamlitを実行できない
  • その場合の対処法は公式サイトに載っている

関連記事

参考リンク


関連書籍

[Read More]

pycharmからpoetryで環境の作成ができない

症状

pycharmでinterpreterの指定にエラーが出た。 改めてpoetryの環境構築を行おうとしたところ、以下のエラーが出た。

ModuleNotFoundError No module named 'virtualenv.activation.xonsh' at <frozen importlib._bootstrap>:984 in _find_and_load_unlocked

解決方法

pip3 uninstall virtualenv

原因

  • anyenvのアップデートをかけたのが悪かったか?

反省

  • 不用意なアップデートは不具合の原因になる

関連記事


関連書籍

[Read More]

技術書典11に参加するに当たって技術書を作成したメモ 経緯、あと感想

前回

技術書典7に参加するに当たって技術書とプログラムを作成したメモ 経緯と売り上げ、あと感想

経緯

学位を取るための論文執筆が死ぬほど辛かった私は執筆の経験が浅いから苦しんだのだと仮説を置いた。

この仮説を検証するために論文よりレベルを落として薄い本を書くことを思い立った。

[Read More]

日本語で学習済みのT5がhugging face で公開されたので使い方メモ

T5(Text-To-Text Transfer Transformer) とは

  • 事前学習における入出力を文に統一してしまうことで、 複数の形式の問題に対しても適応できる様式となった。
  • モデルの基本構造としては Transformer が使われており、その点はBERTと共通している。
  • 事前学習の形式をすべてテキストによる指定にするというアイデアはGPT-3などでも用いられている。
    • 0 shot learning など入力文で模範解答例を入力するだけで、出力を操作するということも行われている
    • “操作の指定:入力文1、出力に期待する文、操作の指定:入力文2"で、“出力文2"が得られるという次第

できること

  • 下流のタスクとして転移学習を行うことで以下のようなことが実行できる。
    • 文書分類
    • タイトル生成
    • 文章生成
    • 生成要約

機械学習の基礎からモデルの仕組みまで体系的に学びたい方へ

[Read More]

Circle Ci を利用してre:viewをビルドしてpdfを得る手順

Circle Ci を利用してre:viewをビルドしてpdfを得る手順

  1. Re:VIEW Template をローカルに用意する
  2. 自分のgithubレポジトリに移す
  3. article フォルダ以下の該当するファイルを編集する
  4. Circle Ciへgithubアカウントでログインして連携する
  5. 自分のgithub レポジトリへpushするとgithub actions が実行される
  6. Actions -> buildの指定 -> Artifacts から出力されたpdfをダウンロードできる

参考リンク


関連書籍

[Read More]

ffmpegで音声ファイルの音量の正規化(ノーマライゼーション)

  • ffmpegで音声ファイルの音量を調整する方法
  • 音量の正規化のためにffmpegを用いた
    • ffmpegはコマンドラインで利用できるメディアの加工ができる
  • 後々のために使用方法を記録しておく
    • たまに使うときにコマンドを忘れやすい
    • 似たような処理をしたくなることが多いのでメモが役に立つ気がする

ffmpegのインストール

ubuntu 系の場合、以下のコマンドでffmpegのダウンロードとインストールが完了する sudo apt update sudo apt install ffmpeg

[Read More]

hugo で作成したページをtwitter_cardsとして表示できるようにする

hugoで作成した記事のリンクをtwitterなどで記載したときに、 twitter card表記されるようにしたい。

手順

layouts/_default/baseof.html

{{ template "_internal/opengraph.html"}}
{{ template "_internal/twitter_cards.html"}}

を追記する。

環境によってはbaseof.htmlではない場合もある。

[Read More]
hugo  技術