ブログではないです

読んだ論文と実験・研究のメモ書き

COLING2016 5日目


Fast Gated Neural Domain Adaptation: Language Model as a Case Study (Jian Zhang, Xiaofeng Wu, Andy Way, Qun Liu)

General-domain / in-domain で訓練したNNの出力(embedding、隠れ層など)がそれぞれある時に一般的なdomain-adaptationの手法としては * concat
* sum
* weighted concat
* weighted sum
などが考えられる。

提案手法のGatied adaptation ではGRUのゲートの調節を両方のベクトルの重み付け和で行い、 ゲートの解放具合によってin-domainのベクトルをgeneral-domainのベクトルを混ぜて用いる、ということをしている。評価は言語モデル

Phrase-based Machine Translation using Multiple Preordering Candidates (http://www.aclweb.org/anthology/C/C16/C16-1134.pdf)

Phrase-based MTで翻訳を行う際には対象言語へのそれぞれの単語の並び替えが発生する。 その際に並び替えのラティスを複数候補用意して、デコード時にはその確信度と合わせて生成を行う。 全体のラティスを一度に用意しているわけではなくて部分的な翻訳結果+パスの確信度を組み合わせていたようだが、その部分が一度聞いただけでは理解しきれなかった・・・。

Direct vs. indirect evaluation of distributional thesauri(Vincent Claveau; Ewa Kijak)

Word embeddingの評価方法についての論文。シンプルな方法としては他の類義語辞書などを使って似た単語のembedding同士が近くなるかを確かめるような方法(Intrinsic)が一般的。それは評価のために参照する単語間の関係が正しいものであるということが前提となっているが、それは必ずしも保証されるようなものではない。そのため、構築したembeddingを使った他のタスクによる評価(Extrinsic)を用いるべきだ、という主張。 実験でintrinsic / extrinsic な評価を色々試して比較している。

Time-Independent and Language-Independent Extraction of Multiword Expressions From Twitter(Nikhil Londhe; Rohini Srihari; Vishrawas Gopalakrishnan)

Twitterのようなコーパスでは"state-of-the-art" みたいに連語ハイフン繋ぎなんてしてくれないしその連語自体も辞書に無いような俗語が頻出する。特に、ハッシュタグとして登録される際に連語がバラけてしまう事が問題となる。こうしたものを検知したい。

手法としては単語の共起と頻度を元にグラフ構造を作り、よく出てくる組み合わせの中でもそれが検知したい連語(例:Hong Kong)なのか、一般的な熟語(例:is about to)のグラフなのかを区別している。下記のハイパーパラメータを元にエッジが張られているか・いないかの閾値を設定して、そのパターンからハッシュタグになりそうかつ連語になっている組み合わせを判別。この辺りの単語のエッジのパターンからどうグラフをバラしていくのか追いきれていない。

グラフの構築に関する以下のハイパーパラメータは普通に結果をプロットしながら探索していた。
• Enrichment parameter η : Determines which vertices in the current neighborhood will be considered
• Word rarity parameter ζ : Determines the level of rarity for a vertex to be considered
• Co-occurrence parameter κ : Determines the co-occurrence probability for an edge to be considered