데이터사이언티스트 썸네일형 리스트형 (데이터과학 인터뷰 질문) (4) 샘플링과 리샘플링, 3편 : 교차검증 (1) 이 글 시리즈는 zzsza.github.io/data/2018/02/17/datascience-interivew-questions/에 있는 에 스스로 대답해보면서 정리해보고자 적어가는 글입니다. 주인장 분께 감사의 말씀 드립니다! 리샘플링의 다양한 방법론들, 2편 교차검증(Cross-validation) 교차검증은 내 모델의 '실제' 성능을 가늠해보기에 상당히 합리적이고 훌륭한 리샘플링 방법론이다. 리샘플링을 이용해서 생성한 다양한 'validation set'을 통해 모델의 성능을 측정한다. '실전에서 내 모델이 어떻게 작동할지'를 가늠해 보는 방법이라고 생각할 수 있다. 오버피팅이나 selection bias를 발견해 내는 방법이 될 수도 있다. 직관적인 이해를 위해, 선형회귀모형 Y = B0+B1X.. 더보기 (영어만 되면 할 수 있는) 문과 데이터 과학 기초공부 팁 (1) 데이터 과학의 booming에 따라서 많은 문과생(특히 경영학 분야 학생들) 분들께서 데이터 과학자/분석가로서의 커리어를 꿈꾸시는 것으로 압니다. 그러나, 그 길을 가기 위해 무언가 시작해보려 첫 발을 내딛고자 해도 배경지식이 전무하신 분들이 대다수이며, 결국은 인터넷에서 열심히 광고하는 몇몇 IT 관련 학원들의 말속임(?)에 넘어가 고액의 학원비를 지불해가며 반년에서 일년 정도의 시간을 허비하게 되는 경우가 많습니다. 물론 아직 저도 데이터과학자로서의 길을 준비하고 있는 사람으로서 제 글에 싣을 만한 authority는 없지만, 그래도 같은 길을 힘겹게 걸어가고 계실 랜선 학우분들에게 조금이나마 도움이 되고자 이러한 글을 적습니다. (아래 글은 문과생 한정입니다. 제가 문과 출신이다 보니 이공계열에서 .. 더보기 이전 1 다음