COLING2016 2日目 - ブログではないです

Tutorial T-5

Translationese: Between Human and Machine Translation [Shuly Wintner]
スライド

機械翻訳と、Translationese（翻訳された文章の文体含む特徴）についてのお話。（人手で）翻訳された文章（以下translated, [T]）は元々その言語で書かれた文章(original, [O])と比べて語彙のバリエーションに乏しくなる・シンプルで汎用的な表現を好む・句読点や括弧が多くなる、などといった特徴がある。そうした要素に注目した研究。

Text Classification

まずはtranslated / originalの分類タスクについて。上記で述べたように、translatedではoriginalと比べて文体が独特のものとなるので、その性質を捉えうるようなfeature (文の長さ・content-wordのカウント etc.. ) を列挙して分類し、accuracyで比較している。結論を言うと、original / translated 間の単語の出現パターン (スライドp37、単語のランクとPMIをプロットしたもの) が結構近い形をしてるにも関わらず、単語・文字のuni/bi/tri-gramなどを使ったSVMでin-domainの文章に関してはほぼ完璧に解けてしまう。一方、out-domainの文章に関しては60~70%前後。

また、教師なしの方法についても紹介している。 Function words / (Char or POS) tri-gram などをfeatureとしてクラスタリングした後、そのクラスタ内のテキスト・対象ラベルのテキストを使って言語モデルを訓練し、そのJensen-Shannon divergence (JSD) によって各クラスタがOriginal / Translated のどちらに対応するかを決める、というもの。精度は使うfeatureによって89~96% くらい。

<memo>
INTERFERENCE - 原言語側の性質が翻訳結果のフレーズの現れやすさに影響を及ぼすこと。例えば英語ードイツ語間の翻訳を考えた時、"one is" は英語で生じやすく、"doch" はドイツ語で生じにくい。前者については元となるドイツ語側で"Man ist" というそのままの表現が存在するため、一方後者は"doch"という言葉がドイツ語側で様々な使われ方をするので英語側ではこの表現、というような一対一対応を取りにくいから。翻訳された文章のn-gram特徴量などでcaptureできる、と述べている。

ここから機械翻訳の話。実験はMosesでやったらしい。

Language Models

機械翻訳における言語モデルの工夫。前述した通り、Original / Translated の文体の違いを考えると、言語モデルは対象言語の文章(Original) から構築するよりも、翻訳後の対象言語の文章（Translated）を用いて構築したほうがいいのではないか？という話。ある種のdomain adaptation。実験の結果、全ての言語についてその方がBLEUスコアが良くなっている。(下図はスライドp79より)

f:id:jack_and_rozz:20161212131310p:plain:w500

Direction Matters

もう1つ面白い実験として、パラレルコーパスを元がどっちの言語だったか、で分けてモデルを訓練して、翻訳の方向性の精度への影響を見ている。つまり、英語 -> フランス語の翻訳モデルを訓練する際に
(a)英語をフランス語に翻訳したコーパス (b) フランス語を英語に翻訳したコーパスの2種類で訓練したモデルのBLEUを比較する。

まあ当然 (a) の方が良いわけだけども、ではコーパス内の各翻訳対が (a) なのか (b) なのか分かっている場合、単に全部一緒に使う以外にこのコーパスの翻訳方向を考慮してより良い結果を得ることが出来ないか？という話になる。そのための手法として別々にフレーズテーブルを作る、コーパスの翻訳方向をfeatureとしてそのまま渡す、などの手法について実験して比較している。
結局これもdomain adaptationの一種で、ドメインごとに訓練するか・ドメインの違いをfeatureとして与えるかという部分に帰着するのだと思う。

Cross-Classification

Interferenceの例のように原言語側の性質が翻訳後の文体に影響するのだとすると、翻訳前の言語が近い場合翻訳後の文章も近いものになると考えられる。英語の文章に対するO/T分類タスクの話に戻り、「言語Aから英語に翻訳した文章」の分類を「言語Bから英語に翻訳した文章で訓練した分類器」で行う。その結果は以下の通り（スライドp94より）で、言語学的に近い言語同士は翻訳後も似たものになる事が確認出来た、という主張をしている。

f:id:jack_and_rozz:20161212131644p:plain:w200

それに加えて、ヨーロッパ系の14の言語から英語に翻訳したものを用いて、それが元々どの言語から翻訳されたかを推定するタスク（精度は76%程度）や、翻訳後の文章に対して階層的クラスタリングを行うと、言語学的に近い言語同士でそこそこまとまるようなツリーが得られた、というような実験も紹介していた。