読者です 読者をやめる 読者になる 読者になる

ブログではないです

読んだ論文と実験・研究のメモ書き

COLING2016 3日目

発表が短いので前2日より更に理解が合ってるか怪しめ。。。


Expanding wordnets to new languages with multilingual sense disambiguation [Mihael Arcan, John Philip McCrae and Paul Buitelaar]

面白かった。英語しかないwordnet を他の言語に翻訳する話。ただし単語は複数の意味(synset) を持つため、wordnet上での対応を取るのが大変。 手法としては、対応する言語との間でパラレルコーパスが存在しているという前提の上で 通常の翻訳システムを用いて対象となる単語を含んだ文を翻訳し、alignmentを取って単語単位での翻訳を行うというもの。この際、翻訳元で対象の単語がどのsynsetで使われているか分からないのでWSDも同時に行っている。

コーパス中で殆ど使われないような意味や、そもそも対象言語に単語として存在していないような概念はどうするのだろう?後者についてはwordnetを翻訳したいという話なのだから英語の概念の方に合わせる形になるんだろうか。

Generating Video Description using Sequence-to-sequence Model with Temporal Attention [Natsuda Laokulrat; Sang Phan; Noriki Nishida; Raphael Shu; Yo Ehara; Naoaki Okazaki; Yusuke Miyao; Hideki Nakayama]

ビデオのキャプション生成について。 [Venugopalan+'15] では動画の各フレームをCNNに通して全部まとめて(平均化?)1つのキャプションを生成。 ただ、「オーブンの中にパンを入れた」→「取り出した」みたいに、動画の中ではそれぞれの動作に繋がりがあるので、その順番も使いたい。 やってることは翻訳のattentionモデルを動画の時間軸に対してに対して適用する、ということだと思う。

生成結果を見せていたけど、普通に1動画1キャプションだったのでそのtemporal-attentionがどう効いているのかいまいち。 これはある動画の中でキャプションの切り替わりをする時に活きる話なんじゃなかろうか。

使ってるデータセットメモ
1. microsoft video descreption corpus
2. montrial video annotation dataset

Task-Oriented Intrinsic Evaluation of Semantic Textual Similarity [Nils Reimers; Philip Beyer; Iryna Gurevych]

STS (Semantic Textual Similarity) systemは数多く有るが、そのどれがいいのか、という評価は難しい。 ピアソンの相関係数が一般的だが、大きく外れた値があるとそれに引っ張られがちで今ひとつ信用ならない。 SemEval'12の結果を用いて、異なる2種類の評価指標を用いてシステムを評価した時どの程度順位が変わるかを示している。

筆者の主張としては、そもそもSTSを適用するアプリケーションによってその類似度が異なるのだから用いるべき指標もtask-orientedに決定するべきであり、3つの観点(Cardinality, Set of interest, Information) からどの評価基準を用いるか慎重に選択すべきだ、と述べている。 下図(論文table3より)は筆者が提案する状況毎に用いるべき評価指標。 (Pearson correlation, Spearman rank correlation, normalized (discounted) cumulative gann (nCG/nDCG), F1-scoreやその平均などから選択)

f:id:jack_and_rozz:20161214061005p:plain

memo: 実験に使ったコーパス
1. Wikipedia rewrite corpus
2. related article classification
3. related article retrieval

memo: SemEval'16 の結果を後で確認する, 追いきれなかったので後で論文読む

Exploiting Sentence and Context Representations in Deep Neural Models for Spoken Language Understanding [Lina M. Rojas Barahona; Milica Gasic; Nikola Mrkšić; Pei-Hao Su; Stefan Ultes; Tsung-Hsien Wen; Steve Young]

“i am looking for a moderately priced restaurant in the north part” → inform(area=north,pricerange=moderate)

のように、テキスト+その発話行為の情報(context)からなる連続した会話データに対してある発言をCNN, その発言以前のcontextをLSTMでエンコードしたものの重み付け和を取ってfeatureとして、そのテキストの発話行為の推定をcontextなし・あり・onlyの場合で比較。評価尺度はラベルに対するaccuracyやcross entropy.

自分も気になっていた、テキスト部分はCNNで解釈しているけどLSTMそっちでは使わないの?という質問があり、筆者曰く一方向に単語を巻き込んでいくRNNよりmax-poolingである種の構文木(というかフレーズパターン)をinduce出来るCNNの方が自然だと考えている、とのこと。自分はテキストにCNN使うのはキモくないか派だったのだが他にも結構CNNで文解釈する研究が多くてそんなもんか、という感想。

Asynchronous Parallel Learning for Neural Networks and Structured Models with Dense Features [Xu Sun]

面白かった。NNの訓練の際高速化のために非同期並列に計算したいが、NNのパラメタの多さからRead/Writeに時間がかかるため、かなりの確率でスレッド間で衝突が起こって勾配計算がおかしくなる。しかし実際にはまともに勾配計算出来ている部分とエラーを含んでいる部分が入り混じっており、そのエラー率が一定以内に抑えられるなら学習は収束する、という主張。スレッド数を増やしながら訓練時間と最終的なタスクの精度を比較した結果、精度は変わらず訓練時間が半分くらいになっていた。

Ranking Responses Oriented to Conversational Relevance in Chat-bots [Bowen Wu , Baoxun Wang, Hui Xue]

microsoftの人。一問一答だけではなくその前のやりとりも含めて考えるcontext-awareな対話応答選択モデル。contextはとりあえず1つ前の発話・応答だけに絞っている。
やっていることは
(a) context1,context2, query, response をNNでエンコード 。 queryを元にcontext1,2 に対して attentionする
(b) エンコードした文を時系列順にRNNに通す
の2つの操作でcontext含めた会話全体をvectorに落としている。詳しくは下図参照 (論文fig.2より)
f:id:jack_and_rozz:20161213175121p:plain

モデルの末端では通常のseq2seq的に言語モデルを構築しているのではなく、初めから応答選択に最適化している。 ここlossがどうなってるのか微妙に分かってないけど正解とダミー応答を混ぜて訓練して1/0のラベリングをしているのかな?

Given a sequence representation from conversation modeling, the candidate ranking module takes the full-connected layer to quantify the relevance of candidate responses. We employ the cross entropy as the point-wise ranking loss, and various ranking objective functions can be used to learn the parameters of the whole model.

評価についてはダミー応答を混ぜたテストセットに対して、応答が正解かどうかの分類テストのaccuracyの他に 1 in t P@k という評価尺度を使っていて、正解を1つ含んだt個の応答候補の中からk個選んだ時、正解がその中に入っている割合。 自分の研究でもほとんど同じ尺度で応答選択の評価をしていて、その評価の仕方はどうなの?みたいなことをたまに言われてきたので大手が名前を付けた上で使っていてちょっと嬉しい。

結果は以下の表 (論文 table.1)の通り。 (a) CNN with Attention + (b) GRUの組み合わせが一番良さそう。 f:id:jack_and_rozz:20161213175230p:plain