본문 바로가기

수학 및 통계학/수리통계학

(데이터과학 인터뷰 질문) (7) 확률분포 1. 베르누이와 이항분포

이 글 시리즈는 zzsza.github.io/data/2018/02/17/datascience-interivew-questions/에 있는
<데이터사이언스 인터뷰 질문 모음집>에 스스로 대답해보면서 정리해보고자 적어가는 글입니다.

주인장 분께 감사의 말씀 드립니다!

 

 

 


다양한 확률분포들에 대해서.

1편 - 베르누이, 이항, 카테고리(다항) 분포


 

 

 

  • 오늘 살펴볼 분포들은 discrete distrubution들이다. 우리나라 말로는 이산분포다.

 

  • 이산확률분포에 대해 정의내리기 전에 먼저 이산확률변수에 대해 간단히 정의를 내리자.
  • 확률변수 X는 함수로서 정의된다는 것을 지난 포스팅에서 알았다(6편 링크).
  • 함수이기에 당연히 치역(range)이 존재한다.
  • 이 치역이 countable set(가산집합)이라면 이 함수, 곧 확률변수는 이산확률변수다.

 

  • 이러한 확률변수의 확률분포함수를 확률질량함수(Probability Mass Function, PMF)라 부른다. 만약 확률변수가 연속적이라면, 질량이 아닌 확률밀도함수(Probability Distribution Function, PDF)라 부른다.

PMF의 수학적 정의, xi라는 값을 받아서 0~1 사이의 실수를 반환한다.

 

  • 물론 어렵게 생각할 건 없다. 연속적이지 않은 x값의 확률값(0~1)을 반환하는 함수라고 생각하면 된다.

 


  X ~ Bern(p)  -  베르누이 분포

 

 

      • 모든 확률분포는 그 분포의 특성을 결정짓는 모수(parameter)가 존재한다. 모수는 보통 괄호 안에 표시하고, 이 경우 p라는 한 가지 값만 존재한다.
      • ~ 표기는 주어진 확률변수가 해당 분포를 따른다는 뜻이다.
      • 베르누이 확률 분포는 가능한 X값이 단 두 경우밖에 없는 경우를 모델링하는 확률함수다.
      • 가장 단순하고 starightforward한 경우는 동전던지기다.
      • 동전 던지기 사건의 outcome은 동전의 앞면 혹은 뒷면이 나오는 경우밖에 없다(물론 저~~엉말 희박한 경우에는 동전의 옆면으로 바닥에 서는 일도 존재할 수는 있겠지만 이런 케이스까지는 생각할 필요 없다).
      • 혹은 성공/실패의 경우로 분류할 수 있는 모든 사건 또한 포함한다. 사실 확률론/통계학에서 '성공'이라는 용어는 일반적인 느낌의 성공이 아니라, '원하던 사건이 일어난 것' 정도의 개념이다.
      • PMF와 CDF(누적확률분포)는 다음과 같이 수식으로 표현할 수 있다.

CDF는 F(x)로, PMF는 P(x)로 주로 표현한다.

 

  • 심플한 수식이지만 상당히 편리하다. x = 0이라면 (1-p)의 확률값을, x=1이라면 p의 확률값을 출력할 것이다.
  • (1-p) = q 로 표현하기도 한다.

 

  • 베르누이 분포의 기대값 E(X)은 p 그 자체다. 기대값의 정의에 따라 그렇다.

 

  • 베르누이 분포의 분산 Var(X)는 pq다.

 

  • 베르누이 분포의 적률생성함수(Moment Generating Function)는 M(t) = q+pe^t다.

 

  • 머신러닝 예측 문제에서 Y = {0,1}인 경우를 모델링할 때, 베르누이 확률 분포의 모수 p값을 찾는 과정이라고 봐도 무방하다.

 


  X ~ Bin(n, p)  -  이항분포

 

      • 이항분포는 n과 p라는 두 개의 모수를 갖는다.
      • 이항분포는 "동일한 베르누이 분포를 갖는 독립 시행을 n번 반복할 때 성공 횟수"로 정의된다.
      • 더 쉽게 말하면, n번 완전히 똑같은 시행(성공확률은 p로 고정)을 반복했을 때, 총 성공 횟수는 이항분포를 따른다, 곧 X ~Bin(n,p)다 라고 말한다.
      • 따라서 n은 0을 포함한 양의 정수 집합, p는 0과 1 사이의 실수 집합 사이에 분포한다.
      • 예를 들어, "학생 A가 문제를 풀면 10번 중 8번은 정답을 맞춘다(성공)고 가정하자. 그렇다면 p = 0.8이다. 이 때 문제를 28개 푼다면 18개는 맞출 확률은 얼마인가?" 같은 문제다. 고등학교 때 많이 봤을거다.
      • 단순한 확률분포 같지만 실제 연구 및 모델링에서 많이 사용된다.

 

      • PMF와 CDF는 다음과 같다.

 

      • 기대값은 아주 단순하게 n*p다. 이는 기대값의 선형성에 의한 결과다. 이항변수 X는 위에서 말했듯이 각각 동일한 베르누이 분포를 갖는 시행을 n번 반복한 결과다. 이를 다 더했으니, 각각의 베르누이 확률분포의 기대값 p를 n번 더한거나 다름없다.
      • 분산도 분산의 성질 중 하나, 곧 독립 확률변수의 합(sum of independent random variables)인 어떠한 확률변수의 분산은 각 확률변수의 분산의 합(sum of variances of each variable)과 같다는 사실에서 기인하여 단순하게 npq로 구해진다. 

 

      • 적률생성함수도 derive 해보자.