본문 바로가기

수학 및 통계학/회귀분석

Quantile Regression(분위수 회귀)의 개념과 R 적용 Quantile Regression은 기존의 선형회귀와 많은 부분이 비슷하지만, conditional mean이 아닌 conditional median을 추정한다는 큰 차이점이 있습니다. 우리나라 말로는 분위수 회귀라고도 합니다. 오늘 포스팅에서는 분위수 회귀에 대해 디테일하게 살펴보고, R로 적용해보는 시간을 갖도록 하겠습니다. 1) 최소자승법과의 차이? 분위수회귀는 최소자승법의 수학적 구조와는 다른 방향성을 갖고 있습니다. 선형대수학적 관점으로 봤을 때 최소자승법은 inner product space에서의 projection matrix등의 문제로 접근할 수 있지만, 분위수회귀는 선형프로그래밍을 simplex method로 해결하는 방식입니다. simplex method에 대해서는 다음의 두 링크를 .. 더보기
(PRA) 회귀분석 1. 데이터 분석의 전반적 컨셉 이 시리즈는 Practical Regression and Anova using R, JJ Faraway, 2002를 공부하면서 정리했습니다. 개인적 사용을 위한 copyright 제한을 따로 걸어두지 않았고 pdf도 무료배포 중입니다. 회귀분석 운을 떼기에 좋은 책이라고 생각합니다. 수학적으로 엄밀하게 증명하면서 따져가는 책은 아니고 multivariate case는 살펴보지 않게 됩니다. * 데이터 분석에 대한 전반적 소고 통계학은 '문제의식'으로부터 시작됩니다. 따라서 문제가 무엇인지 정확히 인지하는 것이 중요합니다. 이를 위해 다음과 같은 사항을 생각해봅시다. 흔히 도메인 지식이라고 부르는, 주어진 데이터의 underlying background를 항상 고려합시다. 분석의 목적이 무엇인지 명확히 인.. 더보기
(토막글 및 잡설) 선형회귀에서 '선형'의 의미 선형회귀는 처음 구축되었을 때나 지금이나 강력하고 유의미한, 이 세상을 설명하는 방법론입니다. 머신러닝과 딥러닝의 시대를 살아가고 있다고 이야기하는 지금도 선형회귀모형의 기본 아이디어, 즉 (세상의 어떠한 현상 Y) = (적절한 변수들 X) + (X와 관계없는 잡음 u) 로 모델링할 수 있다는 일종의 신념(?)은 사실상 머신러닝과 딥러닝에서도 동일하게 스며들어 있습니다. 다만 머신러닝과 딥러닝은 이를 갈수록 발전하는 computational capacity를 이용하여 해결하고자 하는 것이지요. 그 단적인 예가 요새 캐글에서 유행하는 GB(Gradient Boosting) 계열의 알고리즘들이지 않을까 생각합니다(GB가 error term u에 대해서 접근하는 방식을 생각해보세요) 어쨌든, 선형회귀가 복잡한.. 더보기