본문 바로가기

cross validation

(데이터과학 인터뷰 질문) (5) 샘플링과 리샘플링, 4편 : 교차검증과 하이퍼 파라미터 튜닝 이 글 시리즈는 zzsza.github.io/data/2018/02/17/datascience-interivew-questions/에 있는 에 스스로 대답해보면서 정리해보고자 적어가는 글입니다. 주인장 분께 감사의 말씀 드립니다! 리샘플링의 다양한 방법론들, 4편 교차검증(Cross-validation)과 하이퍼 파라미터 튜닝 이번 글에서는 교차검증을 실제 모델링에서 사용하는 다른 방법인 하이퍼파라미터 튜닝에 대해서 알아보자. 이 아이디어는 단순하면서도 꽤나 강력하다. 기본 개념은 리샘플링 시리즈에서 계속 다루는 내용과 동일하다. 즉, 주어진 데이터셋을 얼마나 최대한 뽑아먹으면서, variance는 줄이고, 다른 데이터셋에서도 잘 작동할 만한 모델을 수립하고자 하는 것이다. 우리가 실제로 다루게 되는 많.. 더보기
(데이터과학 인터뷰 질문) (4) 샘플링과 리샘플링, 3편 : 교차검증 (1) 이 글 시리즈는 zzsza.github.io/data/2018/02/17/datascience-interivew-questions/에 있는 에 스스로 대답해보면서 정리해보고자 적어가는 글입니다. 주인장 분께 감사의 말씀 드립니다! 리샘플링의 다양한 방법론들, 2편 교차검증(Cross-validation) 교차검증은 내 모델의 '실제' 성능을 가늠해보기에 상당히 합리적이고 훌륭한 리샘플링 방법론이다. 리샘플링을 이용해서 생성한 다양한 'validation set'을 통해 모델의 성능을 측정한다. '실전에서 내 모델이 어떻게 작동할지'를 가늠해 보는 방법이라고 생각할 수 있다. 오버피팅이나 selection bias를 발견해 내는 방법이 될 수도 있다. 직관적인 이해를 위해, 선형회귀모형 Y = B0+B1X.. 더보기