日本語要約の手法・サービスのまとめ
Posted on Wed Mar 9 2022
| 2 minutes
| 815 words
|
- 日本語文章の自動要約について調べたのでまとめておく
- 原文から一部を選択的に抜粋する抽出型と機械翻訳のように対応する要約文を生成する生成型がある
- またウェブで公開されている要約サービスもある
生成型要約
モデル
- DNN 言語モデル
- BERTの文脈から派生した要約手法が多い
- BART
- T5
- 学習をすべて自然言語で設定して行うことで複数のタスクへと柔軟に対応する、というコンセプトのモデル
- T5がhugging face で公開されたモデルをファインチューニングして使うことが割と手軽にできた
- 要約だけでなく単語の分散表現を得ることにも使える
- 整数計画問題
- ソルバーで厳密に解くことができる
- 無償のソルバーはpythonだとpulp, Python-MIPが選択肢になる
- 式を記述する際の挙動の軽さから私はPython-MIPを勧める
- 制約条件として文の数、文字数を指定できる
- 計算時間が短いというわけではない
- 各モデル
- 文全体が一つのトピックを扱っていると仮定して、その代表的な文を拾ってくるイメージ
- McDonaldモデル
- 最大被覆モデル
- 施設配置モデル
- 劣モジュラ最適化問題に帰着できる
- 文の類似度を計算する必要がある
- 原論文では単語の重複をスコアとしている
- ROUGEみたいな
- 2022年現在では文の分散表現を求めることもできるのでそこはケースバイケースで特徴量を選択する
- LexRank
- 文間の類似度からグラフ関係を計算して、重要な文をランキングする
- 文字数の指定はできない
- Sentence Transformersのサイトに実装例がある
- 別に文の間の類似度が出せるならSBERTでなくてもいい
サービス
参考文献
技術書典11に参加するに当たって技術書を作成したメモ 経緯、あと感想
Posted on Fri Aug 20 2021
| 2 minutes
| 622 words
|
前回
経緯
学位を取るための論文執筆が死ぬほど辛かった私は執筆の経験が浅いから苦しんだのだと仮説を置いた。
この仮説を検証するために論文よりレベルを落として薄い本を書くことを思い立った。
[Read More]
日本語で学習済みのT5がhugging face で公開されたので使い方メモ
Posted on Thu Jul 1 2021
| 8 minutes
| 3533 words
|
T5(Text-To-Text Transfer Transformer) とは
- 事前学習における入出力を文に統一してしまうことで、
複数の形式の問題に対しても適応できる様式となった。
- モデルの基本構造としては Transformer が使われており、その点はBERTと共通している。
- 事前学習の形式をすべてテキストによる指定にするというアイデアはGPT-3などでも用いられている。
- 0 shot learning など入力文で模範解答例を入力するだけで、出力を操作するということも行われている
- “操作の指定:入力文1、出力に期待する文、操作の指定:入力文2"で、“出力文2"が得られるという次第
できること
- 下流のタスクとして転移学習を行うことで以下のようなことが実行できる。
生成要約の例
- 一つの原文から2種類の要約文を生成するファインチューニングが思いの外うまく働いた。
データとしては
[Read More]
Circle Ci を利用してre:viewをビルドしてpdfを得る手順
Posted on Thu Jul 1 2021
| 1 minutes
| 199 words
|
Circle Ci を利用してre:viewをビルドしてpdfを得る手順
- Re:VIEW Template をローカルに用意する
- 自分のgithubレポジトリに移す
- article フォルダ以下の該当するファイルを編集する
- Circle Ciへgithubアカウントでログインして連携する
- 自分のgithub レポジトリへpushするとgithub actions が実行される
- Actions -> buildの指定 -> Artifacts から出力されたpdfをダウンロードできる
参考リンク
word2vecでteratailの検索システムっぽいものを作る
Posted on Fri Apr 16 2021
| 1 minutes
| 150 words
|
概要
分散表現を用いた検索システムを作る。
- teratailから質問をスクレイピングする。
- スクレイピングした文章をもとにword2vecを学習する。
- word2vecによって得られた分散表現をもとにcosine similarityを計算して、クエリと質問文の類似度を得る。
- 類似度をもとにソートする。
ソース
teratail_w2v_question.ipynb
[Read More]
アテンションを用いた画像処理モデルの作成
Posted on Thu Apr 8 2021
| 3 minutes
| 1154 words
|
アテンションを用いた画像処理モデルの作成のまとめ
画像認識にアテンションという機構を付与して、判断の根拠を可視化しました。
前振り
画像認識についてはもう深層学習が人間を超えてから(2015)しばらく経っています。
[Read More]
AI(深層学習) を用いて観賞魚の品種識別
Posted on Thu Apr 8 2021
| 5 minutes
| 2046 words
|
AI を用いて観賞魚の品種識別のまとめ
-
AI はもはや普通の人間を超える性能を発揮している
-
深層学習系の手法がメジャー
-
デバイスは2 万円〜から利用が可能
前振り
仕事がらAIについて調べております。調べると言ってもプレスリリースを漁るといったものではなく、主に公開されている論文やソースコードを読みこなして自力でAIを構築できるように取り組んでいます。
[Read More]
技術書典7に参加するに当たって技術書とプログラムを作成したメモ 経緯と売り上げ、あと感想
Posted on Sun Mar 28 2021
| 4 minutes
| 1702 words
|
経緯
学位を取るための論文執筆が死ぬほど辛かった私は執筆の経験が浅いから苦しんだのだと仮説を置いた。
この仮説を検証するために論文よりレベルを落として薄い本を書くことを思い立った。
[Read More]
pythonで環境構築の為にきれいなrequirements.txtを作成する方法
Posted on Wed Mar 17 2021
| 2 minutes
| 583 words
|
python で環境構築をする際にrequirements.txtを利用することがある。
ただ、素直にrequirements.txtを作ると環境構築の再現性が低い場合がある。
[Read More]
MLops 実験開発環境の整備の必要性
Posted on Fri Feb 26 2021
| 1 minutes
| 145 words
|
MLops
レベル1だけでもやっとけばええんちゃうか
やること
- データの前処理と保存
- 特徴量の抽出と保存
- 分類器の学習と保存
- それぞれのパラメータの保存
利点
実験する部分や追加したい機能の切り分けがしやすくなる。
[Read More]