KL-디버전스

하나의 이산형 확률변수에 2개의 확률질량함수 $p$와 $q$가 주어졌다고 하자. 즉 $i=1,\ldots,n$에 대하여 $p_i, q_i > 0$이고 $\sum_{i=1}^n p_i = \sum_{i=1}^n q_i = 1$이다.

이때 $p$의 $q$에 대한 Kullback-Lebler divergence (KL 디버전스)는 다음과 같이 정의된다. \[ \mathbb K\mathbb L(p\, \Vert\, q) = \sum_{i=1}^n p_i(\log p_i - \log q_i) \]

KL 디버전스에 대해서 다음의 부등식이 성립한다. \[ \mathbb K\mathbb L(p\, \Vert\, q) \ge 0 \tag{$*1$} \] 단, 등호는 $p=q$일 때, 그리고 이때만 성립한다.

위의 부등식에 의하여 KL 디버전스는 하나의 확률변수에 대한 2개의 확률함수 $p$와 $q$가 얼마나 다른가의 척도로 볼 수 있다.

일반적으로 $\mathbb K\mathbb L(p\, \Vert\, q) \ne \mathbb K\mathbb L(q\, \Vert\, p)$이고, $\mathbb K\mathbb L(p\, \Vert\, q) + \mathbb K\mathbb L(q\, \Vert\, r) \not\ge \mathbb K\mathbb L(q\, \Vert\, r)$이므로 KL 디버전스는 거리함수(distance function)는 아니다.

부등식 $(*)$가 성립함은 젠센의 부등식을 위로 볼록 함수인 $\log x$에 적용하여 다음과 같이 증명할 수 있다.

\begin{align*} -\mathbb{KL}(p\,\Vert\,q) &= \sum_{i=1}^n p_i(\log q_i - \log p_i) = \sum_{i=1}^n p_i\log(q_i/p_i)\\ &\le \log \left( \sum_{i=1}^n p_i \cdot (q_i/p_i) \right) = \log\sum_{i=1}^n q_i = \log 1 = 0 \end{align*}

이 부등식의 등호가 성립하는 필요충분조건은 $q_i/p_i$가 일정하다는 것이며 이것은 $\sum_i q_i = \sum_i p_i = 1$이라는 조건하에는 곧 $q_i = p_i,\;(i=1,\ldots,n)$를 의미한다.

[홈으로]