본문 바로가기

수학 및 통계학/수리통계학

확률분포의 모수 추정, (1) 표본분포와 중심극한정리 모수 추정(Parameter estimation)은 수리통계학이 본격적으로 시작되는 지점이라고 할 수 있습니다. 또한 회귀분석 등의 next subject와 Machine learning 분야와의 연관성이 성립되는 구간이기도 하며, 개인적으로는 머신러닝이던 고전(?) 통계학이던 결국에는 하고자 하는 것이 무엇인지, 본질적인 목적성을 생각해 보게 되는 파트이기도 합니다. 오늘은 확률분포의 모수 추정에 대한 내용을 간략히 정리해 보고, 중심극한정리를 짚고 넘어가겠습니다. 다음 포스팅에서는 모수추정의 대표적인 방법인 적률법에 대해서 알아보도록 하겠습니다. 이 과정에서 이전 포스팅에서 공유했던 부트스트래핑(Bootstrapping)과 리샘플링에 대한 이야기를 간략하게 짚고 넘어가겠습니다. 1. 모수 추정이란 무.. 더보기
(베이지안) 가우시안(Normal) 분포와 베이지안 접근법의 기초 이 글은 개인적으로 공부한 내용을 간략하게 정리하기 위한 포스팅입니다. 상세한 내용은 전공 교재들을 참고하시는 것이 좋습니다. Normal Modeling 가우시안 분포는 다음과 같은 수식의 PDF를 갖는 함수다. 수많은 분야에서 적용되는 분포다. 이는 이 분포가 가지고 있는 ‘정상성’(normality) 때문. 작은 사건들이 모여 극한에서는 normal한 모습을 보이는 실제 데이터들 긴 꼬리(long tail)를 갖지 않는 대칭분포 현상들을 아주 잘 적합하는 모델. 수식의 수학적 특성 때문에(해석학적 특성 및 닫힌 꼴의 연산). 따라서 많은 모델링 수업의 첫 발걸음. 심지어 심플한 포아송이나 이항분포보다도 더욱 introductory. 그렇다고 해서 가우시안 분포가 모든 현상을 다 설명하는 킹왕짱 분포.. 더보기
(데이터과학 인터뷰 질문) (7) 확률분포 1. 베르누이와 이항분포 이 글 시리즈는 zzsza.github.io/data/2018/02/17/datascience-interivew-questions/에 있는 에 스스로 대답해보면서 정리해보고자 적어가는 글입니다. 주인장 분께 감사의 말씀 드립니다! 다양한 확률분포들에 대해서. 1편 - 베르누이, 이항, 카테고리(다항) 분포 다음 포스팅 몇 편 동안 다양한 확률분포들에 대해 알아보자. edwith에서 하버드 Statistics 110(확률론 기초) 강의를 제공한다. 교수님의 강의력이 아주 상당하고 자막도 퀄리티가 좋으니 더 깊은 공부를 하고 싶다면 꼭 참고하자. 아래의 표기도 대부분 해당 강의를 따른다. 오늘 살펴볼 분포들은 discrete distrubution들이다. 우리나라 말로는 이산분포다. 이산확률분포에 대해 정의.. 더보기
(데이터과학 인터뷰 질문) (6) 확률변수와 확률모형의 차이 이 글 시리즈는 zzsza.github.io/data/2018/02/17/datascience-interivew-questions/에 있는 에 스스로 대답해보면서 정리해보고자 적어가는 글입니다. 주인장 분께 감사의 말씀 드립니다! 확률변수와 확률모형은 무엇인가요? 우선 영어로는 확률변수는 random variable, 확률모형은 probabilistic model이다. 확률변수는 다음과 같이 수학적으로 정의된다. 먼저 말로 풀어서 설명하면 다음과 같다. "모든 가능한 경우의 수의 집합 시그마 => 측정 가능한 공간 E" 로 전사하는 함수 측정 가능한 공간(measurable space)를 이야기하려면 측도론이라는 학문을 알아야 한다. 여기서 시그마 대수 등의 용어를 배우게 된다(사실 이 부분은 본인도 잘.. 더보기
(데이터과학 인터뷰 질문) (3) 샘플링과 리샘플링, 2편 : 잭나이핑과 부트스트래핑 이 글 시리즈는 zzsza.github.io/data/2018/02/17/datascience-interivew-questions/에 있는 에 스스로 대답해보면서 정리해보고자 적어가는 글입니다. 주인장 분께 감사의 말씀 드립니다! 리샘플링의 다양한 방법론들, 1편 이번 글에서는 먼저 리샘플링의 첫번째 정의였던 부분부터 시작해보자(지난 글 참고) 그러나 본질적으로는 지난 글에서 구체화했듯이 두 정의가 크게 다르지 않다. 1. Estimating the precision of sample statistics by using subsets of available data(jackknifing) or drawing randomly with replacement from a set of data points (b.. 더보기
(데이터과학 인터뷰 질문)(2) 샘플링과 리샘플링, 1편 이 글 시리즈는 zzsza.github.io/data/2018/02/17/datascience-interivew-questions/에 있는 에 스스로 대답해보면서 정리해보고자 적어가는 글입니다. 주인장 분께 감사의 말씀 드립니다! 샘플링과 리샘플링이란? 샘플링이란 표본추출을 의미하는 것으로, 모집단 전체에 대한 추정치(estimate)을 얻기 위해 모집단에서 임의의 sample을 뽑아내는 것이다. 모집단 전체에 대한 조사는 사실상 불가능하기 때문에 sample을 이용하여 모집단에 대한 추론(inference)을 하게 되는 것이다. 이는 머신러닝과 통계분야에서 흔히 접하는 신뢰구간, standard error, 오버피팅, 분산 등과 밀접한 관련이 있다. 샘플링 방법으로는 흔히 통계학 시간에서 배우는 등의 .. 더보기