perplexity
mathperplexityというのをいつも忘れてしまうので、メモ。
定義
文章WWに対して、Pr(W)−1mPr(W)−1mをperplexityと言う。 ただし、mmは文章の長さ(=単語の数)である。 対数を取ると、
−1mlogPr(W)−1mlogPr(W)となる。−logPr(W)−logPr(W)は、文章WWの 情報量 である。 したがって、log(perplexity)log(perplexity)は、1単語あたりの情報量 である。
しかし、単位がbitだと理解しづらいので、普通は対数ではなくてperplexityそのものの値を使う。
意味
Pr(W)−1mPr(W)−1mの計算を分解してみると、
Pr(W)−1m=(m∏i=11Pr(wi|w1,…,wi−1))1mPr(W)−1m=(m∏i=11Pr(wi|w1,…,wi−1))1mと書ける。つまり、単語の出現確率の逆数の幾何平均である。 確率は、足し算的ではなくて掛け算的な量なので、算術平均ではなく幾何平均を使うのは納得的である。 単語の出現確率の逆数とはどういう意味かを考えてみる。
例えば、確率が1313だったとする。すると、この単語は、3つの候補単語の中から選ばれたと思うことができる。 今出てきた3は、確率の逆数によって取り出すことができる。 つまり、単語の出現確率の逆数は、次の単語の候補としていくつの単語が考えられるか?という量を 表していると思える。したがって、perplexityは、文書をある部分まで読んだとき次の単語の候補はいくつか?という値の 平均値を表している。