ブログではないです

ブログでなくはないです

COLING2016 4日目

今日は午前で終了。


CharNER: Character-Level Named Entity Recognition (Onur Kuru; Ozan Arkan Can; Deniz Yuret)

タイトルの通り、NERをChar-based RNNでやったという話。手法としては各文字をRNNに通す時に、その文字が構成している単語のタグ情報 (PER, ORG, LOC, ...)を文字と一緒に入力してやるというもの。テストの時には同じ単語の中で文字毎にバラバラのタグが出力される事も当然あるが、そこは多数決で決めるとのこと。

スライドでは微妙に分からなかったが、タグを入力として追加する時にどう追加してるんだろう?文字毎に(a_PER, a_ORG) みたいにしてるのか、それともtag-embeddingのようなものを用意して、入力とconcatしているのか。

[Building a Monolingual Parallel Corpus for Text Simplification Using Sentence Similarity Based on Alignment between Word Embeddings](Tomoyuki Kajiwara; Mamoru Komachi)

Poster発表より。 文のsimplificationタスク。ある文とその簡単バージョンを入出力とした翻訳モデルを訓練している。 その際に、input-output間の文の類似度を計算して、それが高いものを訓練に使うという工夫。 文の類似度についてはいくつか手法を比較しているが、良かったのは入力側のそれぞれの単語について出力側から最もembeddingのcos類似度が近いものを集めて平均を取るというもの(Maximum Alignment)。文中単語のembeddingを平均的に比較する(Average Alignment)よりもこのタスクではこっちの方が良かったとのこと。

Automatic Labelling of Topics with Neural Embeddings (Shraey Bhatia; Jey Han Lau; Timothy Baldwin)

文書に対するトピック分類、対象ラベルはWikipediaの記事タイトル。 Wikipedia中のタイトルをword2vec, 本文をdoc2vecでembedding化して入力文書と類似度比較(wordの方はtopic-wordだけ?)して、100候補くらい選出した後にそれを別の手法(いろいろfeatureを変えてSVR使っていた)でリランキング。

トピックに対して分類するというなら階層的・構造的に規定されたラベルである記事カテゴリの方が良いんじゃないだろうか(Wikipediaに記事が存在する単語の数レベルで細かくトピックの種類が欲しい場合ってどういう時だろう?)とも思ったが、既存研究でそうしているので精度比較がしやすいということなのだろう。