perplexityというのをいつも忘れてしまうので、メモ。

定義

文章\(W\)に対して、\(\mathrm{Pr}(W)^{-\frac{1}{m}}\)をperplexityと言う。 ただし、\(m\)は文章の長さ(=単語の数)である。 対数を取ると、

\[-\frac{1}{m}\log \mathrm{Pr}(W)\]

となる。\(-\log \mathrm{Pr}(W)\)は、文章\(W\)の 情報量 である。 したがって、\(\log (\mathrm{perplexity})\)は、1単語あたりの情報量 である。

しかし、単位がbitだと理解しづらいので、普通は対数ではなくてperplexityそのものの値を使う。

意味

\(\mathrm{Pr}(W)^{-\frac{1}{m}}\)の計算を分解してみると、

\[\mathrm{Pr}(W)^{-\frac{1}{m}} = \left( \prod_{i=1}^{m}\frac{1}{ \mathrm{Pr}(w_i | w_1, \ldots, w_{i-1} )}\right)^{\frac{1}{m}}\]

と書ける。つまり、単語の出現確率の逆数の幾何平均である。 確率は、足し算的ではなくて掛け算的な量なので、算術平均ではなく幾何平均を使うのは納得的である。 単語の出現確率の逆数とはどういう意味かを考えてみる。

例えば、確率が\(\frac{1}{3}\)だったとする。すると、この単語は、3つの候補単語の中から選ばれたと思うことができる。 今出てきた3は、確率の逆数によって取り出すことができる。 つまり、単語の出現確率の逆数は、次の単語の候補としていくつの単語が考えられるか?という量を 表していると思える。したがって、perplexityは、文書をある部分まで読んだとき次の単語の候補はいくつか?という値の 平均値を表している。