目次
- 深層学習モデルを使って、新聞記事から見出しを自動で生成するモデルが提案されている。
- 朝日新聞が自動要約生成APIの提供を始めました。
追記
- 2022時点ならT5を使ってファインチューニングを試す方が簡単な気がする。
モデル概要
- 朝日新聞が研究に協力して取り組んでおり、transformerを基礎にして、文字数制約を組み込んだモデルが論文で提案されています。
- さすが朝日新聞というべきか、莫大な教師データを使ってモデルの学習を行っています。
- また文字数制約についても、位置エンコーディングを工夫することによって、指定した文字数を生成するようになったようです。
- この辺り、フリーの言語リソースが日本語に少ないことには歯がゆさを感じます。
## ニュースタイトルの自動生成モデルの作成
- 朝日新聞が提供しているのは文要約です。
- そこでタイトルの自動生成へと彼らのアイデアを転用してみました。
- とあるニュースサイトの情報を利用して行ってみました。
- まあ、それなりにみられるタイトルを出力するモデルが出来上がりました。
- GPUという高価な計算資源は必要となりますが、 おもちゃにするには惜しいほどのものは出来上がりました。
感想
- そのうちネットニュースの見出しは自動生成が多くを占めるようになるだろうということが予測できます。
- もちろん、データのバイアスの修正や発信者の意図を反映した内容にするには人手による修正が必要です。
- 自動生成関連のニュースでいうと、 Googleによって発表された言語生成モデルは、 あまりの精度の高さにフェイクニュースの氾濫を危惧して公開はされなかったが、 あながち取り越し苦労でもなさそうです。
- 以下のリンクに短文ニュースに関して、まとめた。
- ニュースタイトルの自動生成について興味のある方はご一報ください。