Towards an Automatic Turing Test: Learning to Evaluate Dialogue Responses [Lowe+, ACL'17]
http://aclanthology.coli.uni-saarland.de/pdf/P/P17/P17-1103.pdf
概要
学会中に発表聞きながら書いていたので短め。追記するかも。
How NOT to evaluate your dialogue system[Liu+, EMNLP'16] の著者の一人。
上記の論文中でBLEUなどの翻訳用のmetricやどちらの応答が良いか選ぶなどといった、現在の対話の自動評価手法が人間の人手評価との相関が無いことを検証していた。
結論としては人手評価のデータ (応答への1-5のスコアなど) を集め、それを用いて評価用のモデルを学習することが信頼性を担保しつつ、対話モデルの評価を低コストに行う手法であるとの事。そして今回は汎用ドメイン(Twitter)のデータを用いて実際にそれをやってみたよ、という話。面白かった。