ブログではないです

ブログでなくはないです

StoryDB: Broad Multi-language Narrative Dataset (Tikhonov+, Eval4NLP'21)

https://aclanthology.org/2021.eval4nlp-1.4.pdf

データセット論文。
既存の物語系データセットが割と人工的で日常的なテーマのごく短い話、物語というよりCommonsenseに基づいた行動の羅列と感じるものが多いのに対して、この研究では実際に出版されている物語を対象として多言語かつ大規模なデータセットを構築している(42言語を対象、平均2772編)
一体どうやってデータ持ってきたんだろうと思って確認してみると、実際には青空文庫のデータのように著作権の切れた物語全体をクロールしてきたわけではなく、小説のWikipedia上での「あらすじ」欄を各言語で引っ張ってきているらしい。なんだよと思ったが実際に確認してみると、物によっては結構十分な長さで初めから終わりまで書かれていて確かにこれを物語と扱っても良さそうだなという感じがある(e.g., 「10年前に両親が亡くなったあと、ロンドン近郊のサレーに住むダーズリー家に引き取られていたハリー・ポッターは …(中略)… グリフィンドールは寮杯を獲得する。そして夏休みを迎え、生徒たちは帰りのホグワーツ特急に乗り込み、ハリーもダーズリー家に帰宅する。」) 加えて、同じくwikipediaの手がかりを元に物語のジャンルや登場人物のcross-lingual/story なタグ付けなども行っている。実験としては多言語モデルを使ってそのデータでタグ分類とかしているけどまあこれはおまけかな…
ダウンロードしてみようと思ったけどまだ上がっていない?