ブログではないです

ブログでなくはないです

Ridge Regression, hubness, and Zero-Shot Learning [Shigeto+, ECML'15]

概要

タイトルの通り、Zero-shot learningにおけるHubness問題の原因の考察とそのシンプルな解決法。 Zero-shot Learningはある事例空間Aからラベル空間Bへの写像を学習し、テスト時には写像後に近傍探索することで画像のラベル付けなどを行う。 ラベル空間そのものに対するマップを学習しているため、訓練データの事例にラベルXに対応するものが存在しない場合でもXがラベル空間上で点を持てば対応 可能である、という利点がある。

Hubness and Pollution: Delving into Cross-Space Mapping for Zero-Shot Learning [Lazaridou+, ACL-IJCNLP '15] でも似たような話があったが、普通にL2正規化を行って対応するラベルとの二乗誤差を最小化するように学習すると、ほとんどの事例が対応するラベル(Hub) が生まれてしまう、という問題。

事例空間を写像した時ラベル空間上では原点中心の何らかの分布になると仮定すると、ラベル空間で定義された点のうち原点付近のものは 事例空間を写像した点の近傍になりやすくなる。(特に高次元ベクトルでは次元の呪いから近傍点と遠傍点との距離の差は大きくなるため、その問題が顕著になる?)

重要なのは以下の2点。

(1) Hubが出現しない、ということは写像後の点  x とラベル空間の2点 y_1 , y_2 ( ||y_1||  \le ||y_2|| ) との距離を考えた時に原点からの距離に関わらず2点が近傍であり得る、つまり距離の2乗の期待値の差 \deltaが小さい事に相応する。また、論文の証明によると \deltaはラベル分布の分散に比例する。

(2) L2正規化を加えて二乗誤差によって写像の最適化を行った場合、写像後の分布の分散は写像前よりも小さくなる。(shrinkage)

筆者はこれらの考えから提案手法として、事例空間をラベル空間に写像するのではなくラベル空間を事例空間に写像する、つまり写像方向を逆にするだけで ラベル空間の分散は小さくなるため、Hubの出現が抑制される、と述べている。

論文:https://arxiv.org/pdf/1507.00825v1.pdf
スライド:http://cl.naist.jp/~yutaro-s/download/Shigeto_NL222_slides.pdf