본문 바로가기

딥러닝

(토막글 및 잡설) 선형회귀에서 '선형'의 의미 선형회귀는 처음 구축되었을 때나 지금이나 강력하고 유의미한, 이 세상을 설명하는 방법론입니다. 머신러닝과 딥러닝의 시대를 살아가고 있다고 이야기하는 지금도 선형회귀모형의 기본 아이디어, 즉 (세상의 어떠한 현상 Y) = (적절한 변수들 X) + (X와 관계없는 잡음 u) 로 모델링할 수 있다는 일종의 신념(?)은 사실상 머신러닝과 딥러닝에서도 동일하게 스며들어 있습니다. 다만 머신러닝과 딥러닝은 이를 갈수록 발전하는 computational capacity를 이용하여 해결하고자 하는 것이지요. 그 단적인 예가 요새 캐글에서 유행하는 GB(Gradient Boosting) 계열의 알고리즘들이지 않을까 생각합니다(GB가 error term u에 대해서 접근하는 방식을 생각해보세요) 어쨌든, 선형회귀가 복잡한.. 더보기
(데이터과학 인터뷰 질문) (6) 확률변수와 확률모형의 차이 이 글 시리즈는 zzsza.github.io/data/2018/02/17/datascience-interivew-questions/에 있는 에 스스로 대답해보면서 정리해보고자 적어가는 글입니다. 주인장 분께 감사의 말씀 드립니다! 확률변수와 확률모형은 무엇인가요? 우선 영어로는 확률변수는 random variable, 확률모형은 probabilistic model이다. 확률변수는 다음과 같이 수학적으로 정의된다. 먼저 말로 풀어서 설명하면 다음과 같다. "모든 가능한 경우의 수의 집합 시그마 => 측정 가능한 공간 E" 로 전사하는 함수 측정 가능한 공간(measurable space)를 이야기하려면 측도론이라는 학문을 알아야 한다. 여기서 시그마 대수 등의 용어를 배우게 된다(사실 이 부분은 본인도 잘.. 더보기
(데이터과학 인터뷰 질문) (5) 샘플링과 리샘플링, 4편 : 교차검증과 하이퍼 파라미터 튜닝 이 글 시리즈는 zzsza.github.io/data/2018/02/17/datascience-interivew-questions/에 있는 에 스스로 대답해보면서 정리해보고자 적어가는 글입니다. 주인장 분께 감사의 말씀 드립니다! 리샘플링의 다양한 방법론들, 4편 교차검증(Cross-validation)과 하이퍼 파라미터 튜닝 이번 글에서는 교차검증을 실제 모델링에서 사용하는 다른 방법인 하이퍼파라미터 튜닝에 대해서 알아보자. 이 아이디어는 단순하면서도 꽤나 강력하다. 기본 개념은 리샘플링 시리즈에서 계속 다루는 내용과 동일하다. 즉, 주어진 데이터셋을 얼마나 최대한 뽑아먹으면서, variance는 줄이고, 다른 데이터셋에서도 잘 작동할 만한 모델을 수립하고자 하는 것이다. 우리가 실제로 다루게 되는 많.. 더보기
(데이터과학 인터뷰 질문) (4) 샘플링과 리샘플링, 3편 : 교차검증 (1) 이 글 시리즈는 zzsza.github.io/data/2018/02/17/datascience-interivew-questions/에 있는 에 스스로 대답해보면서 정리해보고자 적어가는 글입니다. 주인장 분께 감사의 말씀 드립니다! 리샘플링의 다양한 방법론들, 2편 교차검증(Cross-validation) 교차검증은 내 모델의 '실제' 성능을 가늠해보기에 상당히 합리적이고 훌륭한 리샘플링 방법론이다. 리샘플링을 이용해서 생성한 다양한 'validation set'을 통해 모델의 성능을 측정한다. '실전에서 내 모델이 어떻게 작동할지'를 가늠해 보는 방법이라고 생각할 수 있다. 오버피팅이나 selection bias를 발견해 내는 방법이 될 수도 있다. 직관적인 이해를 위해, 선형회귀모형 Y = B0+B1X.. 더보기
(데이터과학 인터뷰 질문) (3) 샘플링과 리샘플링, 2편 : 잭나이핑과 부트스트래핑 이 글 시리즈는 zzsza.github.io/data/2018/02/17/datascience-interivew-questions/에 있는 에 스스로 대답해보면서 정리해보고자 적어가는 글입니다. 주인장 분께 감사의 말씀 드립니다! 리샘플링의 다양한 방법론들, 1편 이번 글에서는 먼저 리샘플링의 첫번째 정의였던 부분부터 시작해보자(지난 글 참고) 그러나 본질적으로는 지난 글에서 구체화했듯이 두 정의가 크게 다르지 않다. 1. Estimating the precision of sample statistics by using subsets of available data(jackknifing) or drawing randomly with replacement from a set of data points (b.. 더보기
(데이터과학 인터뷰 질문)(2) 샘플링과 리샘플링, 1편 이 글 시리즈는 zzsza.github.io/data/2018/02/17/datascience-interivew-questions/에 있는 에 스스로 대답해보면서 정리해보고자 적어가는 글입니다. 주인장 분께 감사의 말씀 드립니다! 샘플링과 리샘플링이란? 샘플링이란 표본추출을 의미하는 것으로, 모집단 전체에 대한 추정치(estimate)을 얻기 위해 모집단에서 임의의 sample을 뽑아내는 것이다. 모집단 전체에 대한 조사는 사실상 불가능하기 때문에 sample을 이용하여 모집단에 대한 추론(inference)을 하게 되는 것이다. 이는 머신러닝과 통계분야에서 흔히 접하는 신뢰구간, standard error, 오버피팅, 분산 등과 밀접한 관련이 있다. 샘플링 방법으로는 흔히 통계학 시간에서 배우는 등의 .. 더보기
(데이터과학 인터뷰 질문)(1) 고유값과 고유벡터, 그리고 PCA 이 글 시리즈는 zzsza.github.io/data/2018/02/17/datascience-interivew-questions/에 있는 에 스스로 대답해보면서 정리해보고자 적어가는 글입니다. 주인장 분께 감사의 말씀 드립니다! 고유값과 고유벡터란? 정의에 의해, 행렬 A를 임의의 열벡터 x에 대한 선형변환이라 하자. 이 때, Av = λv를 만족하는 열벡터 v를 행렬 A의 고유벡터, 상수 λ를 행렬 A의 고유값이라고 한다. 즉 다음과 같다. 더 general하게 이야기한다면, 고유값/고유벡터는 모든 linear transformation에 대해 이야기할 수 있다. 예를 들어 미분연산자 d/dx에 대해서도 '고유함수'를 이야기할 수 있다. 어떠한 선형변환의 가능한 모든 고유값/고유벡터 쌍의 집합을 ei.. 더보기