perplexityというのをいつも忘れてしまうので、メモ。

定義

文章Wに対して、Pr(W)1mをperplexityと言う。 ただし、mは文章の長さ(=単語の数)である。 対数を取ると、

1mlogPr(W)

となる。logPr(W)は、文章W情報量 である。 したがって、log(perplexity)は、1単語あたりの情報量 である。

しかし、単位がbitだと理解しづらいので、普通は対数ではなくてperplexityそのものの値を使う。

意味

Pr(W)1mの計算を分解してみると、

Pr(W)1m=(i=1m1Pr(wi|w1,,wi1))1m

と書ける。つまり、単語の出現確率の逆数の幾何平均である。 確率は、足し算的ではなくて掛け算的な量なので、算術平均ではなく幾何平均を使うのは納得的である。 単語の出現確率の逆数とはどういう意味かを考えてみる。

例えば、確率が13だったとする。すると、この単語は、3つの候補単語の中から選ばれたと思うことができる。 今出てきた3は、確率の逆数によって取り出すことができる。 つまり、単語の出現確率の逆数は、次の単語の候補としていくつの単語が考えられるか?という量を 表していると思える。したがって、perplexityは、文書をある部分まで読んだとき次の単語の候補はいくつか?という値の 平均値を表している。