An Overview of Multi-Task Learning in Deep Neural Networks [Ruder, arXiv'17]

https://arxiv.org/pdf/1706.05098.pdf

マルチタスク学習 (MTL) についてのサーベイ論文。マルチタスクの利点や考え方、これまでの手法などがニューラル・非ニューラル共に列挙されていて勉強になった。

自分がこれまで読んできたニューラルベースのMTL論文だとネットワーク間で陽にパラメータを共有するhard-sharingな手法が主で、パラメータは独立に持つけれども共有されていて欲しい2つのレイヤ間の類似度を損失として加えるなどするsoft-sharingな手法はあまり見てこなかったので新鮮。その違いについて、MTLを行うタスクの性質次第では片方のタスクにしか役にたたないような特徴量がそれぞれあったりするような場合などの場合には, hard-sharingなモデルを用いてそれらを1つのベクトルに押し込めるとあるタスクにおいては使われない特徴量がノイズとして働くので、soft-sharingな形を取るほうが有望なのではないか、とのこと。

とは言っても [Liu+, ACL'17] のようにhard-sharingではあるがprivate/shared それぞれに空間を用意してやってそれらがきちんと分離されるような学習を行う形もあるわけで、結局どちらがいいのか？というところはやってみなきゃ分からないのかな。

NLPのNC2組のタスクについてM通りの設定でMTLしてみました、という論文あったりしないだろうか。結局どういう設定でどの手法がどれだけいいのか、そしてそれがタスクごとにどの程度異なるのか、というところを網羅的に知りたい。

他には private/sharedなレイヤを交互に配置する Cross-stitch Networkや、パラメタ行列をmatrix factorizationして private/sharedなものに分解するという手法 (どういう意味があるんだろう・・・？) あたりが見たこと無いタイプで面白かった。

ブログではないです

ブログでなくはないです

An Overview of Multi-Task Learning in Deep Neural Networks [Ruder, arXiv'17]