본문 바로가기

cv

(데이터과학 인터뷰 질문) (4) 샘플링과 리샘플링, 3편 : 교차검증 (1) 이 글 시리즈는 zzsza.github.io/data/2018/02/17/datascience-interivew-questions/에 있는 에 스스로 대답해보면서 정리해보고자 적어가는 글입니다. 주인장 분께 감사의 말씀 드립니다! 리샘플링의 다양한 방법론들, 2편 교차검증(Cross-validation) 교차검증은 내 모델의 '실제' 성능을 가늠해보기에 상당히 합리적이고 훌륭한 리샘플링 방법론이다. 리샘플링을 이용해서 생성한 다양한 'validation set'을 통해 모델의 성능을 측정한다. '실전에서 내 모델이 어떻게 작동할지'를 가늠해 보는 방법이라고 생각할 수 있다. 오버피팅이나 selection bias를 발견해 내는 방법이 될 수도 있다. 직관적인 이해를 위해, 선형회귀모형 Y = B0+B1X.. 더보기
(데이터과학 인터뷰 질문)(2) 샘플링과 리샘플링, 1편 이 글 시리즈는 zzsza.github.io/data/2018/02/17/datascience-interivew-questions/에 있는 에 스스로 대답해보면서 정리해보고자 적어가는 글입니다. 주인장 분께 감사의 말씀 드립니다! 샘플링과 리샘플링이란? 샘플링이란 표본추출을 의미하는 것으로, 모집단 전체에 대한 추정치(estimate)을 얻기 위해 모집단에서 임의의 sample을 뽑아내는 것이다. 모집단 전체에 대한 조사는 사실상 불가능하기 때문에 sample을 이용하여 모집단에 대한 추론(inference)을 하게 되는 것이다. 이는 머신러닝과 통계분야에서 흔히 접하는 신뢰구간, standard error, 오버피팅, 분산 등과 밀접한 관련이 있다. 샘플링 방법으로는 흔히 통계학 시간에서 배우는 등의 .. 더보기