본문 바로가기

데이터과학

(베이지안) 가우시안(Normal) 분포와 베이지안 접근법의 기초 이 글은 개인적으로 공부한 내용을 간략하게 정리하기 위한 포스팅입니다. 상세한 내용은 전공 교재들을 참고하시는 것이 좋습니다. Normal Modeling 가우시안 분포는 다음과 같은 수식의 PDF를 갖는 함수다. 수많은 분야에서 적용되는 분포다. 이는 이 분포가 가지고 있는 ‘정상성’(normality) 때문. 작은 사건들이 모여 극한에서는 normal한 모습을 보이는 실제 데이터들 긴 꼬리(long tail)를 갖지 않는 대칭분포 현상들을 아주 잘 적합하는 모델. 수식의 수학적 특성 때문에(해석학적 특성 및 닫힌 꼴의 연산). 따라서 많은 모델링 수업의 첫 발걸음. 심지어 심플한 포아송이나 이항분포보다도 더욱 introductory. 그렇다고 해서 가우시안 분포가 모든 현상을 다 설명하는 킹왕짱 분포.. 더보기
(데이터과학 인터뷰 질문) (5) 샘플링과 리샘플링, 4편 : 교차검증과 하이퍼 파라미터 튜닝 이 글 시리즈는 zzsza.github.io/data/2018/02/17/datascience-interivew-questions/에 있는 에 스스로 대답해보면서 정리해보고자 적어가는 글입니다. 주인장 분께 감사의 말씀 드립니다! 리샘플링의 다양한 방법론들, 4편 교차검증(Cross-validation)과 하이퍼 파라미터 튜닝 이번 글에서는 교차검증을 실제 모델링에서 사용하는 다른 방법인 하이퍼파라미터 튜닝에 대해서 알아보자. 이 아이디어는 단순하면서도 꽤나 강력하다. 기본 개념은 리샘플링 시리즈에서 계속 다루는 내용과 동일하다. 즉, 주어진 데이터셋을 얼마나 최대한 뽑아먹으면서, variance는 줄이고, 다른 데이터셋에서도 잘 작동할 만한 모델을 수립하고자 하는 것이다. 우리가 실제로 다루게 되는 많.. 더보기
(데이터과학 인터뷰 질문) (4) 샘플링과 리샘플링, 3편 : 교차검증 (1) 이 글 시리즈는 zzsza.github.io/data/2018/02/17/datascience-interivew-questions/에 있는 에 스스로 대답해보면서 정리해보고자 적어가는 글입니다. 주인장 분께 감사의 말씀 드립니다! 리샘플링의 다양한 방법론들, 2편 교차검증(Cross-validation) 교차검증은 내 모델의 '실제' 성능을 가늠해보기에 상당히 합리적이고 훌륭한 리샘플링 방법론이다. 리샘플링을 이용해서 생성한 다양한 'validation set'을 통해 모델의 성능을 측정한다. '실전에서 내 모델이 어떻게 작동할지'를 가늠해 보는 방법이라고 생각할 수 있다. 오버피팅이나 selection bias를 발견해 내는 방법이 될 수도 있다. 직관적인 이해를 위해, 선형회귀모형 Y = B0+B1X.. 더보기
(영어만 되면 할 수 있는) 문과 데이터 과학 기초공부 팁 (1) 데이터 과학의 booming에 따라서 많은 문과생(특히 경영학 분야 학생들) 분들께서 데이터 과학자/분석가로서의 커리어를 꿈꾸시는 것으로 압니다. 그러나, 그 길을 가기 위해 무언가 시작해보려 첫 발을 내딛고자 해도 배경지식이 전무하신 분들이 대다수이며, 결국은 인터넷에서 열심히 광고하는 몇몇 IT 관련 학원들의 말속임(?)에 넘어가 고액의 학원비를 지불해가며 반년에서 일년 정도의 시간을 허비하게 되는 경우가 많습니다. 물론 아직 저도 데이터과학자로서의 길을 준비하고 있는 사람으로서 제 글에 싣을 만한 authority는 없지만, 그래도 같은 길을 힘겹게 걸어가고 계실 랜선 학우분들에게 조금이나마 도움이 되고자 이러한 글을 적습니다. (아래 글은 문과생 한정입니다. 제가 문과 출신이다 보니 이공계열에서 .. 더보기