이 글 시리즈는 zzsza.github.io/data/2018/02/17/datascience-interivew-questions/에 있는
<데이터사이언스 인터뷰 질문 모음집>에 스스로 대답해보면서 정리해보고자 적어가는 글입니다.
주인장 분께 감사의 말씀 드립니다!
확률변수와 확률모형은 무엇인가요?
- 우선 영어로는 확률변수는 random variable, 확률모형은 probabilistic model이다.
- 확률변수는 다음과 같이 수학적으로 정의된다. 먼저 말로 풀어서 설명하면 다음과 같다.
"모든 가능한 경우의 수의 집합 시그마 => 측정 가능한 공간 E" 로 전사하는 함수
- 측정 가능한 공간(measurable space)를 이야기하려면 측도론이라는 학문을 알아야 한다. 여기서 시그마 대수 등의 용어를 배우게 된다(사실 이 부분은 본인도 잘 모름...)
- 대부분의 경우 저 '측정 가능한 공간'은 실수 공간 R이다. 즉 E=R이다.
- 이러한 말들이 잘 이해가 안 될때는, 통계학 시간에 흔히 배우는 확률변수의 예제를 생각하면 쉽다.
- 주사위를 던지는 시행이 있다고 치고, 모든 면이 나올 확률이 동일하다고 하자.
- 그러면 모든 가능한 경우의 수는 {1,2,3,4,5,6}일 것이다.
- 이 때 확률변수의 한 예를 들어보자. 주사위에서 나오는 값을 X라 하자. 이럴 때 우리는 다음과 같은 두 확률변수를 생각할 수 있다.
- P(X <= 4) = 4/6
P(X > 4) = 2/6 - 우리는 주사위 시행에서 나오는 경우의 수를 실수 공간으로 mapping하는 데에 성공했다. 확률변수란 근본적으로 이러한 것이다.
- 조금 더 쉽게 말하자면, '사건에 숫자를 부여하는 것'이라고 얘기할 수도 있다.
- 더 알고 싶은 사람이 있다면 '공리적 확률', aximomatic probability, axioms of probability등의 키워드를 이용해 검색해보자.
- 조금 더 근본적인 이야기를 해보자.
- 통계학은 왜 존재하는가? 통계학이란 학문은 왜 발전해왔는가?
- 세상이 불확실하기 때문이다. 그러나 이 불확실성(uncertainty)을 수학적으로 표현하고 모델링할 수 있다고 우리는 가정하는 것이다.
- 확률변수나 확률모형이나 이것을 위해 존재한다.
- 확률변수의 값이 셀 수 있는지, 셀 수 없는지 (즉 가산성)에 따라 확률변수를 이산확률변수와 연속확률변수로 나눈다.
- 통계학자들이 열심히 연구하고 생각하고 고민한 결과, 세상의 여러 현상들이 특정한 패턴을 띄고 있다는 것을, 그리고 이를 수학적인 수식으로 표현하고, 그 수식을 결정짓는 값을 조금씩 조정하면, 세상의 현상들을 어느정도 포착할 수 있으리라 생각했다.
- 이 수학적인 수식을 확률분포함수(probability distribution function), 수식을 결정짓는 값을 모수(parameter)라고 부른다.
- 현재 내가 관찰하고 있는 현상을 잘 설명할수 있는 확률분포 모수를 추정하기 위해 MLE라는 방법을 사용한다.
- 이러한 확률분포의 개념을 이용해서 실제 현상을 모델링하는 것을 확률 모델(probabilistic model)이라고 부른다.
- 대표적인 예가 선형회귀모델이다.
- 선형회귀모형의 가장 중요한 부분 중 하나가 바로 오차항에 대한 가정이다.
- 오차항이 정규분포를 따른다는 가정이 충족될 때(+기타 몇 가정들), OLS가 BLUE하다는(최소자승법으로 추정한 베타값이 편향되지 않음) 것이 가우스-마르코프 정리를 통해 증명되어 있다.
- 아무튼 이 이야기를 하려면 정규분포라는 분포를 사용해야 한다.
- 이처럼 머신러닝 모델링을 하면서 기본적으로 불확실성에 대한 고민과 이를 확률분포 등의 통계학적 개념을 이용하여 해결하고자 하는 모델이 있다면 이를 확률모델이라고 볼 수 있다.
출처
All of Statistics, Wasserman
Mathematical Statistics and Data Analysis, Rice
Random Variable, Wikipedia
Probability Distribution, Wikipedia
'수학 및 통계학 > 수리통계학' 카테고리의 다른 글
확률분포의 모수 추정, (1) 표본분포와 중심극한정리 (0) | 2021.03.30 |
---|---|
(베이지안) 가우시안(Normal) 분포와 베이지안 접근법의 기초 (0) | 2021.03.20 |
(데이터과학 인터뷰 질문) (7) 확률분포 1. 베르누이와 이항분포 (0) | 2021.03.03 |
(데이터과학 인터뷰 질문) (3) 샘플링과 리샘플링, 2편 : 잭나이핑과 부트스트래핑 (0) | 2020.10.29 |
(데이터과학 인터뷰 질문)(2) 샘플링과 리샘플링, 1편 (0) | 2020.10.28 |