日本語要約の手法・サービスのまとめ

Posted on Wed Mar 9 2022 | 2 minutes | 815 words |

日本語文章の自動要約について調べたのでまとめておく
原文から一部を選択的に抜粋する抽出型と機械翻訳のように対応する要約文を生成する生成型がある
またウェブで公開されている要約サービスもある

生成型要約

モデル

DNN　言語モデル
- BERTの文脈から派生した要約手法が多い
- BART
  - BERTから文の要約に特化して派生したもの
  - BART(文章要約モデル)は日本語に対応していない
- T5
  - 学習をすべて自然言語で設定して行うことで複数のタスクへと柔軟に対応する、というコンセプトのモデル
  - T5がhugging face で公開されたモデルをファインチューニングして使うことが割と手軽にできた
  - 要約だけでなく単語の分散表現を得ることにも使える
整数計画問題
- ソルバーで厳密に解くことができる
  - 無償のソルバーはpythonだとpulp, Python-MIPが選択肢になる
  - 式を記述する際の挙動の軽さから私はPython-MIPを勧める
- 制約条件として文の数、文字数を指定できる
- 計算時間が短いというわけではない
  - 定式化の問題か？
- 各モデル
  - 文全体が一つのトピックを扱っていると仮定して、その代表的な文を拾ってくるイメージ
  - McDonaldモデル
  - 最大被覆モデル
  - 施設配置モデル
    - 劣モジュラ最適化問題に帰着できる
    - 文の類似度を計算する必要がある
    - 原論文では単語の重複をスコアとしている
      - ROUGEみたいな
      - ２０２２年現在では文の分散表現を求めることもできるのでそこはケースバイケースで特徴量を選択する
LexRank
- 文間の類似度からグラフ関係を計算して、重要な文をランキングする
- 文字数の指定はできない
- Sentence Transformersのサイトに実装例がある
  - 日本語に適用するには多少の修正が必要になる
- 別に文の間の類似度が出せるならSBERTでなくてもいい
  - ROUGE, USEなど

サービス

イライザダイジェスト
- ３文に要約
- 割と内容を理解した出力をする印象
- 生成型特有のゆらぎが見られる
  - 不自然な箇所に句読点など
タンテキ
- ３文に要約
- 抜粋型か？

参考文献

文書要約のための数理的手法

要約 BART 技術系自然言語処理技術分散表現文生成

技術書典11に参加するに当たって技術書を作成したメモ経緯、あと感想

Posted on Fri Aug 20 2021 | 2 minutes | 622 words |

前回

技術書典7に参加するに当たって技術書とプログラムを作成したメモ経緯と売り上げ、あと感想

経緯

学位を取るための論文執筆が死ぬほど辛かった私は執筆の経験が浅いから苦しんだのだと仮説を置いた。

この仮説を検証するために論文よりレベルを落として薄い本を書くことを思い立った。
[Read More]

技術書典同人誌技術書技術

日本語で学習済みのT5がhugging face で公開されたので使い方メモ

Posted on Thu Jul 1 2021 | 8 minutes | 3533 words |

T5(Text-To-Text Transfer Transformer) とは

事前学習における入出力を文に統一してしまうことで、複数の形式の問題に対しても適応できる様式となった。
モデルの基本構造としては Transformer が使われており、その点はBERTと共通している。
事前学習の形式をすべてテキストによる指定にするというアイデアはGPT-3などでも用いられている。
- 0 shot learning など入力文で模範解答例を入力するだけで、出力を操作するということも行われている
- “操作の指定:入力文１、出力に期待する文、操作の指定：入力文２"で、“出力文２"が得られるという次第

できること

下流のタスクとして転移学習を行うことで以下のようなことが実行できる。
- 文書分類
- タイトル生成
- 文章生成
- 生成要約

生成要約の例

一つの原文から２種類の要約文を生成するファインチューニングが思いの外うまく働いた。

データとしては

[Read More]

自然言語処理 T5 技術

Circle Ci を利用してre:viewをビルドしてpdfを得る手順

Posted on Thu Jul 1 2021 | 1 minutes | 199 words |

Circle Ci を利用してre:viewをビルドしてpdfを得る手順

Re:VIEW Template をローカルに用意する
自分のgithubレポジトリに移す
article フォルダ以下の該当するファイルを編集する
Circle Ciへgithubアカウントでログインして連携する
自分のgithub レポジトリへpushするとgithub actions が実行される
Actions -> buildの指定 -> Artifacts から出力されたpdfをダウンロードできる

参考リンク

技術 circle ci github

word2vecでteratailの検索システムっぽいものを作る

Posted on Fri Apr 16 2021 | 1 minutes | 150 words |

概要

分散表現を用いた検索システムを作る。

teratailから質問をスクレイピングする。
スクレイピングした文章をもとにword2vecを学習する。
word2vecによって得られた分散表現をもとにcosine similarityを計算して、クエリと質問文の類似度を得る。
類似度をもとにソートする。

ソース

teratail_w2v_question.ipynb

[Read More]

word2vec 分散表現自然言語処理技術技術系スクレイピング pytorch google colaboratory 制作物

アテンションを用いた画像処理モデルの作成

Posted on Thu Apr 8 2021 | 3 minutes | 1154 words |

アテンションを用いた画像処理モデルの作成のまとめ

画像認識にアテンションという機構を付与して、判断の根拠を可視化しました。

前振り

画像認識についてはもう深層学習が人間を超えてから(2015)しばらく経っています。

[Read More]

深層学習技術系技術画像処理

AI(深層学習) を用いて観賞魚の品種識別

Posted on Thu Apr 8 2021 | 5 minutes | 2046 words |

AI を用いて観賞魚の品種識別のまとめ

AI はもはや普通の人間を超える性能を発揮している
深層学習系の手法がメジャー
デバイスは2 万円〜から利用が可能

前振り

仕事がらAIについて調べております。調べると言ってもプレスリリースを漁るといったものではなく、主に公開されている論文やソースコードを読みこなして自力でAIを構築できるように取り組んでいます。

[Read More]

画像処理機械学習深層学習技術技術系

技術書典7に参加するに当たって技術書とプログラムを作成したメモ経緯と売り上げ、あと感想

Posted on Sun Mar 28 2021 | 4 minutes | 1702 words |

経緯

学位を取るための論文執筆が死ぬほど辛かった私は執筆の経験が浅いから苦しんだのだと仮説を置いた。

この仮説を検証するために論文よりレベルを落として薄い本を書くことを思い立った。

[Read More]

技術書典同人誌技術書技術

pythonで環境構築の為にきれいなrequirements.txtを作成する方法

Posted on Wed Mar 17 2021 | 2 minutes | 583 words |

python で環境構築をする際にrequirements.txtを利用することがある。

ただ、素直にrequirements.txtを作ると環境構築の再現性が低い場合がある。

[Read More]

技術 python requirements.txt

MLops　実験開発環境の整備の必要性

Posted on Fri Feb 26 2021 | 1 minutes | 145 words |

MLops

レベル1だけでもやっとけばええんちゃうか

やること

データの前処理と保存
特徴量の抽出と保存
分類器の学習と保存
それぞれのパラメータの保存

利点

実験する部分や追加したい機能の切り分けがしやすくなる。

[Read More]

機械学習技術

日本語要約の手法・サービスのまとめ

生成型要約

モデル

サービス

参考文献

技術書典11に参加するに当たって技術書を作成したメモ 経緯、あと感想

前回

技術書典7に参加するに当たって技術書とプログラムを作成したメモ 経緯と売り上げ、あと感想

経緯

日本語で学習済みのT5がhugging face で公開されたので使い方メモ

T5(Text-To-Text Transfer Transformer) とは

できること

生成要約の例

Circle Ci を利用してre:viewをビルドしてpdfを得る手順

Circle Ci を利用してre:viewをビルドしてpdfを得る手順

参考リンク

word2vecでteratailの検索システムっぽいものを作る

概要

ソース

アテンションを用いた画像処理モデルの作成

アテンションを用いた画像処理モデルの作成のまとめ

前振り

AI(深層学習) を用いて観賞魚の品種識別

AI を用いて観賞魚の品種識別のまとめ

前振り

技術書典7に参加するに当たって技術書とプログラムを作成したメモ 経緯と売り上げ、あと感想

経緯

pythonで環境構築の為にきれいなrequirements.txtを作成する方法

MLops 実験開発環境の整備の必要性

MLops

やること

利点

技術書典11に参加するに当たって技術書を作成したメモ経緯、あと感想

技術書典7に参加するに当たって技術書とプログラムを作成したメモ経緯と売り上げ、あと感想

技術書典7に参加するに当たって技術書とプログラムを作成したメモ経緯と売り上げ、あと感想

MLops　実験開発環境の整備の必要性