이 글 시리즈는 zzsza.github.io/data/2018/02/17/datascience-interivew-questions/에 있는
<데이터사이언스 인터뷰 질문 모음집>에 스스로 대답해보면서 정리해보고자 적어가는 글입니다.
주인장 분께 감사의 말씀 드립니다!
다양한 확률분포들에 대해서.
1편 - 베르누이, 이항, 카테고리(다항) 분포
- 다음 포스팅 몇 편 동안 다양한 확률분포들에 대해 알아보자.
- edwith에서 하버드 Statistics 110(확률론 기초) 강의를 제공한다. 교수님의 강의력이 아주 상당하고 자막도 퀄리티가 좋으니 더 깊은 공부를 하고 싶다면 꼭 참고하자. 아래의 표기도 대부분 해당 강의를 따른다.
- 오늘 살펴볼 분포들은 discrete distrubution들이다. 우리나라 말로는 이산분포다.
- 이산확률분포에 대해 정의내리기 전에 먼저 이산확률변수에 대해 간단히 정의를 내리자.
- 확률변수 X는 함수로서 정의된다는 것을 지난 포스팅에서 알았다(6편 링크).
- 함수이기에 당연히 치역(range)이 존재한다.
- 이 치역이 countable set(가산집합)이라면 이 함수, 곧 확률변수는 이산확률변수다.
- 이러한 확률변수의 확률분포함수를 확률질량함수(Probability Mass Function, PMF)라 부른다. 만약 확률변수가 연속적이라면, 질량이 아닌 확률밀도함수(Probability Distribution Function, PDF)라 부른다.
- 물론 어렵게 생각할 건 없다. 연속적이지 않은 x값의 확률값(0~1)을 반환하는 함수라고 생각하면 된다.
X ~ Bern(p) - 베르누이 분포
- 모든 확률분포는 그 분포의 특성을 결정짓는 모수(parameter)가 존재한다. 모수는 보통 괄호 안에 표시하고, 이 경우 p라는 한 가지 값만 존재한다.
- ~ 표기는 주어진 확률변수가 해당 분포를 따른다는 뜻이다.
- 베르누이 확률 분포는 가능한 X값이 단 두 경우밖에 없는 경우를 모델링하는 확률함수다.
- 가장 단순하고 starightforward한 경우는 동전던지기다.
- 동전 던지기 사건의 outcome은 동전의 앞면 혹은 뒷면이 나오는 경우밖에 없다(물론 저~~엉말 희박한 경우에는 동전의 옆면으로 바닥에 서는 일도 존재할 수는 있겠지만 이런 케이스까지는 생각할 필요 없다).
- 혹은 성공/실패의 경우로 분류할 수 있는 모든 사건 또한 포함한다. 사실 확률론/통계학에서 '성공'이라는 용어는 일반적인 느낌의 성공이 아니라, '원하던 사건이 일어난 것' 정도의 개념이다.
- PMF와 CDF(누적확률분포)는 다음과 같이 수식으로 표현할 수 있다.
- 심플한 수식이지만 상당히 편리하다. x = 0이라면 (1-p)의 확률값을, x=1이라면 p의 확률값을 출력할 것이다.
- (1-p) = q 로 표현하기도 한다.
- 베르누이 분포의 기대값 E(X)은 p 그 자체다. 기대값의 정의에 따라 그렇다.
- 베르누이 분포의 분산 Var(X)는 pq다.
- 베르누이 분포의 적률생성함수(Moment Generating Function)는 M(t) = q+pe^t다.
- 머신러닝 예측 문제에서 Y = {0,1}인 경우를 모델링할 때, 베르누이 확률 분포의 모수 p값을 찾는 과정이라고 봐도 무방하다.
X ~ Bin(n, p) - 이항분포
- 이항분포는 n과 p라는 두 개의 모수를 갖는다.
- 이항분포는 "동일한 베르누이 분포를 갖는 독립 시행을 n번 반복할 때 성공 횟수"로 정의된다.
- 더 쉽게 말하면, n번 완전히 똑같은 시행(성공확률은 p로 고정)을 반복했을 때, 총 성공 횟수는 이항분포를 따른다, 곧 X ~Bin(n,p)다 라고 말한다.
- 따라서 n은 0을 포함한 양의 정수 집합, p는 0과 1 사이의 실수 집합 사이에 분포한다.
- 예를 들어, "학생 A가 문제를 풀면 10번 중 8번은 정답을 맞춘다(성공)고 가정하자. 그렇다면 p = 0.8이다. 이 때 문제를 28개 푼다면 18개는 맞출 확률은 얼마인가?" 같은 문제다. 고등학교 때 많이 봤을거다.
- 단순한 확률분포 같지만 실제 연구 및 모델링에서 많이 사용된다.
- PMF와 CDF는 다음과 같다.
- 기대값은 아주 단순하게 n*p다. 이는 기대값의 선형성에 의한 결과다. 이항변수 X는 위에서 말했듯이 각각 동일한 베르누이 분포를 갖는 시행을 n번 반복한 결과다. 이를 다 더했으니, 각각의 베르누이 확률분포의 기대값 p를 n번 더한거나 다름없다.
- 분산도 분산의 성질 중 하나, 곧 독립 확률변수의 합(sum of independent random variables)인 어떠한 확률변수의 분산은 각 확률변수의 분산의 합(sum of variances of each variable)과 같다는 사실에서 기인하여 단순하게 npq로 구해진다.
- 적률생성함수도 derive 해보자.
- 또한 n이 클수록 이항분포는 정규분포에 근사하는 것이 잘 알려져 있다.
'수학 및 통계학 > 수리통계학' 카테고리의 다른 글
확률분포의 모수 추정, (1) 표본분포와 중심극한정리 (0) | 2021.03.30 |
---|---|
(베이지안) 가우시안(Normal) 분포와 베이지안 접근법의 기초 (0) | 2021.03.20 |
(데이터과학 인터뷰 질문) (6) 확률변수와 확률모형의 차이 (0) | 2020.11.10 |
(데이터과학 인터뷰 질문) (3) 샘플링과 리샘플링, 2편 : 잭나이핑과 부트스트래핑 (0) | 2020.10.29 |
(데이터과학 인터뷰 질문)(2) 샘플링과 리샘플링, 1편 (0) | 2020.10.28 |