모비율의 신뢰구간

\( \def\defeql{\stackrel{\mathrm{def}}{=}} \def\rR{\mathbb R} \newcommand{\nN}{\mathbb N} \def\st{\bigm\vert} \)모비율(population proportion)은 관측값이 1과 0 둘 뿐인 데이터에서의 평균값을 뜻하며 통상 $p$로 나타낸다.

예를 들어 어떤 선거에서 특정 후보를 지지하는 모비율은, 모집단의 크기가 $N$이고 그 후보를 지지하는 사람의 수가 $A$라면 $\frac{A}{N}$로 정의된다. 이 경우의 모비율은 지지하는 사람에게 1, 지지하지 않는 사람에게 0을 주는 확률변수의 기댓값이 됨을 알 수 있을 것이다.

크기 $n$인 표본에서 $y$개의 자료의 값이 1이라면(즉 성공이라면) 표본비율(sample proportion) $\hat p$는

\begin{equation*} \hat p := \frac{y}{n} \end{equation*}

로 정의된다.  $p$는 $\mu$의 특수한 경우이고 $\hat p$는 $\bar x$의 특수한 경우로 볼 수 있다.

$\hat p$를 값으로 가지는 확률변수를 $\hat P$로 두었을 때 $\hat P$의 확률함수는 $n$과 $p$에 의하여 다음과 같이 결정된다.

\begin{equation*} f(x) = \begin{cases} {n\choose nx} p^{nx}(1-p)^{n-nx}, &\text{if } x = 0, \frac{1}{n}, \ldots, \frac{n-1}{n}, 1, \\ 0, &\text{otherwise}. \end{cases} \end{equation*}

$\hat P$의 분포는 $B(n,p)$와 비슷하지만 같지는 않다 — 2항분포에서의 관측값 $y=nx=n\hat p$는 성공의 횟수이며 $\hat P$에서의 관측값 $x$는 성공의 비율(성공 횟수 $\div$ $n$, 즉 $\frac{y}{n}$)이기 때문이다. 표본평균을 나타내는 확률변수(통계량)의 분산은 위에서 보인 확률함수로부터 계산할 수도 있지만 $\sigma_{\bar X}^2 = \frac{\sigma^2}{n\;}$으로부터 구할 수도 있다. 즉 $\sigma^2 = p(1-p)$만 보인다면 표본비율의 분산

\begin{equation*} \sigma_{\hat P}^2 = \frac{p(1-p)}{n} \label{p_variance} \end{equation*}

를 얻을 수 있다. 이것과 2항분포의 분산 $np(1-p)$를 혼동하는 오류를 범하지 않아야 할 것이다.

정리.  1과 0으로 이루어진 모집단 $A := \{x_i \st i=1,\ldots, N\}$에서 $x_i$들의 평균값을 $p$라 하고 모비율이라고 부르기로 한다. 이때 모분산은

\begin{equation} \frac{\sum_{i=1}^N (x_i - p)^2}{N} = p(1-p) \label{var_proportion} \end{equation}

가 된다.

(증명).  $A$의 원소 중 1의 개수를 $M$이라 하면 \begin{gather*} M = \sum_{i=1}^N x_i = \sum_{i=1}^N x_i^2, \\ p = \frac{\sum_{i=1}^N x_i}{N} = \frac{M}{N} \end{gather*} 이다.

모분산 \eqref{var_proportion}의 분자를 계산하면 \begin{align*} \sum_{i=1}^N (x_i - p)^2 &= \sum_{i=1}^N (x_i^2 - 2px_i + p^2) \\ &= \sum_{i=1}^N x_i^2 -2p \sum_{i=1}^N x_i + p^2 N = M - 2pM + p^2N \\ &= pN - 2p(pN) + p^2 N = p(1-p)N. \end{align*} 그러므로 \begin{equation*} \text{모분산} = \frac{\sum_{i=1}^N (x_i - p)^2}{N} = \frac{p(1-p)N}{N} = p(1-p). \tag*{$\Box$} \end{equation*}

(문제).  모비율의 평균은 $B(n,p)$의 평균 $np$에 $\frac{1}{n}$을 곱한 것이므로 모비율의 분산은 $B(n,p)$의 분산 $np(1-p)$에 $\frac{1}{n^2}$을 곱한 $\frac{p(1-p)}{n}$이 되어야 하는 것 아닌가? (힌트) 3개의 분포가 있다. 2항분포 $Y \sim B(n,p)$, 베르누이분포 $X$ with $X=0,1$, $P[X=1]=p$, $P[X=0]=1-p$, $X$를 따르는 모집단의 표본평균 $\hat P$. $\hat P = (X_1 + \cdots + X_n)/n = Y/n$.

표본의 크기 $n$이 충분히 크다면 중심극한 정리에 의하여 $\hat P$의 분포는 정규분포 $N\left(p, \frac{p(1-p)}{n}\right)$으로 근사시킬 수 있다. $p$를 모르는 경우에는 $n$이 충분히 크므로 $p$ 대신 $\hat p$를 쓰면 된다는 사실이 알려져 있다. 즉, \begin{equation*} \hat P \sim N\left( \hat p, \frac{\hat p(1-\hat p)}{n} \right). \end{equation*} 유의수준 $\alpha$에서 오차의 한계는 \begin{equation}\label{margin_error_proportion} E = z_{\alpha/2} \frac{\sigma}{\sqrt n} = z_{\alpha/2}\sqrt{\frac{\hat p(1-\hat p)}{n}} \end{equation} 로 주어짐을 알 수 있다. 통상 $n > 100$ 정도로 충분히 크므로 연속성 보정은 하지 않아도 된다. 이 모든 근사식들은 $n\hat p > 5$이고 또한 $n(1-\hat p)>5$일 때 사용할 수 있음이 알려져 있다.

\eqref{margin_error_proportion}로부터 $n$을 역산하면 \begin{equation}\label{size_sample_proportion} n = \hat p(1-\hat p)\left(\frac{z_{\alpha/2}}{E}\right)^2 \end{equation} 를 얻는다. $\hat p$에 대한 정보가 전혀 없다면 \eqref{margin_error_proportion}의 최대값은 $\hat p = 0.5$일 때 얻어지므로 $n = (0.5)^2\left(\frac{z_{\alpha/2}}{E}\right)^2$를 쓰면 된다.

(예제).  지지율을 조사할 때 신뢰도 95%로, 표본에서 얻은 지지율과 실제 지지율의 오차가 3% point 이내로 되게 하려면 표본의 크기는 최소 얼마로 잡아야 할까? 단, 예비 조사를 통하여 지지율이 27% 정도라는 것을 알고 있다고 한다.

(풀이).  $0.27 (1 - 0.27) \left(\frac{1.96}{0.03}\right)^2 = 841.31$이므로 답은 842이다. 만일 예비조사 결과가 없었다면 $(0.5)^2 \left(\frac{1.96}{0.03}\right)^2 = 1067.11$이므로 1068로 답해야 했을 것이다.

[홈으로]