모수 추정(Parameter estimation)은 수리통계학이 본격적으로 시작되는 지점이라고 할 수 있습니다. 또한 회귀분석 등의 next subject와 Machine learning 분야와의 연관성이 성립되는 구간이기도 하며, 개인적으로는 머신러닝이던 고전(?) 통계학이던 결국에는 하고자 하는 것이 무엇인지, 본질적인 목적성을 생각해 보게 되는 파트이기도 합니다.
오늘은 확률분포의 모수 추정에 대한 내용을 간략히 정리해 보고, 중심극한정리를 짚고 넘어가겠습니다. 다음 포스팅에서는 모수추정의 대표적인 방법인 적률법에 대해서 알아보도록 하겠습니다. 이 과정에서 이전 포스팅에서 공유했던 부트스트래핑(Bootstrapping)과 리샘플링에 대한 이야기를 간략하게 짚고 넘어가겠습니다.
1. 모수 추정이란 무엇인가?
- 모든 확률분포는 모수(parameter)를 가지고 있습니다. 모수는 확률분포의 특성과 형태를 결정하는 값입니다.
- 통계학의 가장 근본이 되는 사고는 "지금 현재 내가 소유한 데이터(샘플, 표본)는 더 큰 집단(Population, 모집단)의 일부라는 것입니다.
- 그리고 그 일부로부터 전체에 대한 것을 추론해야 합니다. 전체를 다 안다는 것은 비용적으로나 현실적으로나 불가능합니다.
- "내가 가진 데이터는 어떠한 확률분포로부터 추출된 표본일까? 그리고 그 확률분포의 모수값은 얼마일까?"라는 질문을 우리는 던지게 됩니다.
- 확률분포를 정확히 알게 되면, 내가 얻은 샘플이 얼마나 중심으로부터 떨어져 있는지, 평균값은 얼마인지, 그리고 다음 샘플에서 얻을 수 있는 값들은 얼마일지 예측할 수 있게 됩니다(여기서부터 회귀분석으로 이어질 수 있습니다).
- 그러나 우리는 전체 데이터는 모르므로, 현재 가진 데이터를 가지고 참 값을 추정(estimate)해야 합니다.
- 포아송 분포의 예를 들어봅시다. 우리가 가지고 있는 데이터가 포아송 분포를 따를 것이라는 추측을 해 봅시다.
- 이를 위해서 다음의 세 가정이 필요합니다.
1) 사건이 발생하는 진짜 rate, 곧 참 lambda 값은 고정되어 있는 constant다 (물론 frequentist의 관점입니다)
2) 이산 간격을 두고 발생하는 각 사건들은 독립적으로 발생한다 (쉽게 말해 사건별로 독립)
3) '여러개의 사건'은 존재하지 않는다. outcome은 {0,1}이다. - 예를 들어 1000개의 샘플을 관측했다고 합시다.
- 그렇다면 X1, X2, ..., X1000은 각각 i.i.d 가정을 따르는 동일한 포아송 분포로부터 추출된 샘플이라고 가정할 수 있습니다.
- 이 때 포아송 분포의 모수인 λ(람다)는 어떻게 추정할 수 있을까요?
- 가장 간단한 접근법은 관측값의 평균을 취하는 것입니다. 예를 들어 다음과 같은 값이 관측되었다고 한다면...
n | 관측 |
0-2 | 28 |
3 | 41 |
4 | 123 |
... | ... |
20+ | 4 |
SUM | 1000 |
- λ값은 어떻게 추정할 수 있을까요? 간단합니다. 샘플 관측값의 평균을 내면 됩니다.
- 왜냐하면 포아송 분포의 기대값은 E(X) = λ이기 때문이죠.
- 이를 추정한다는 의미에서 ^을 붙여서 λ^이라고 합니다.
- 물론 이게 끝일리는 없습니다. 왜냐하면 우리가 현재 가지고 있는 데이터는, 반복해서 언급하듯이, 전체 데이터가 아니기 때문이죠.
- 따라서 실험 or 관측을 반복하다보면, 샘플 관측값의 평균은 결국 바뀔수밖에 없습니다.
- 이를 지속하다보면 결국에는 λ의 추정치 λ^은 자기 나름대로의 분포를 갖게 될 것입니다. 이를 표본분포(Sampling distribution)라고 부릅니다.
- 이게 왜 중요할까요?
- 표본분포가 어떻게 생겼는지를 알면, 우리가 추정하고 있는 λ^의 spreadness, 산포도를 알게 될 것이기 때문입니다.
- 그러면 우리가 지금 추정한 λ^이 '어느 정도 정확한지'를 생각해 볼 수 있는 여지가 생깁니다. 또한 해당 람다값이 일어날 확률도 계산해 볼 수 있습니다.
- 여기서 한가지 더 생각해 볼 수 있는 부분이 있습니다.
- 위의 테이블에서, n = 0~2 사이에 관측값이 m개 들어갈 확률을 p1이라고 합시다.
- 다음으로, n = 3 인 부분에 관측값이 m개 들어갈 확률을 p2라고 합시다.
- 이런식으로 반복하면, 각각 확률은 무슨 확률분포를 따를까요?
- 바로 이항분포를 따르게 됩니다. 곧, 1000개의 관측치 중 n이 0~2인 관측치가 m개 들어갈 확률입니다.
- 각 셀의 joint distribution은 자연스레 multinomial distrubution일 것입니다.
- 이 분포를 이용해 각 셀의 expected value를 계산할 수 있습니다.
2. 중심극한정리에 대하여
- 다음 포스팅을 위해서 중심극한정리를 간단히 정의하고 가겠습니다.
"The sum of a large number of i.id random variables is apporximatley normally distributed"
i.i.d 가정을 만족하는 확률변수가 아주 많이 더해지면, 이는 정규분포에 근사한다. - 전통적으로 CLT를 정의할 때, "표본평균이 정규분포에 근사한다"라고 이야기합니다. 물론 이것은 올바른 정의입니다.
- 그렇지만 일단 이렇게 정의해두겠습니다. 다음 포스팅에서 적률법에 대해 다룰때, 이러한 접근방식이 좀 더 make sense하다는 것을 알게 될 것입니다.
출처:
en.wikipedia.org/wiki/Central_limit_theorem
Mathematical Statistics and Data Analysis, John. A. Rice, 3rd Edition
'수학 및 통계학 > 수리통계학' 카테고리의 다른 글
(베이지안) 가우시안(Normal) 분포와 베이지안 접근법의 기초 (0) | 2021.03.20 |
---|---|
(데이터과학 인터뷰 질문) (7) 확률분포 1. 베르누이와 이항분포 (0) | 2021.03.03 |
(데이터과학 인터뷰 질문) (6) 확률변수와 확률모형의 차이 (0) | 2020.11.10 |
(데이터과학 인터뷰 질문) (3) 샘플링과 리샘플링, 2편 : 잭나이핑과 부트스트래핑 (0) | 2020.10.29 |
(데이터과학 인터뷰 질문)(2) 샘플링과 리샘플링, 1편 (0) | 2020.10.28 |