본문 바로가기

R 분석

Quantile Regression(분위수 회귀)의 개념과 R 적용 Quantile Regression은 기존의 선형회귀와 많은 부분이 비슷하지만, conditional mean이 아닌 conditional median을 추정한다는 큰 차이점이 있습니다. 우리나라 말로는 분위수 회귀라고도 합니다. 오늘 포스팅에서는 분위수 회귀에 대해 디테일하게 살펴보고, R로 적용해보는 시간을 갖도록 하겠습니다. 1) 최소자승법과의 차이? 분위수회귀는 최소자승법의 수학적 구조와는 다른 방향성을 갖고 있습니다. 선형대수학적 관점으로 봤을 때 최소자승법은 inner product space에서의 projection matrix등의 문제로 접근할 수 있지만, 분위수회귀는 선형프로그래밍을 simplex method로 해결하는 방식입니다. simplex method에 대해서는 다음의 두 링크를 .. 더보기
(PRA) 회귀분석 1. 데이터 분석의 전반적 컨셉 이 시리즈는 Practical Regression and Anova using R, JJ Faraway, 2002를 공부하면서 정리했습니다. 개인적 사용을 위한 copyright 제한을 따로 걸어두지 않았고 pdf도 무료배포 중입니다. 회귀분석 운을 떼기에 좋은 책이라고 생각합니다. 수학적으로 엄밀하게 증명하면서 따져가는 책은 아니고 multivariate case는 살펴보지 않게 됩니다. * 데이터 분석에 대한 전반적 소고 통계학은 '문제의식'으로부터 시작됩니다. 따라서 문제가 무엇인지 정확히 인지하는 것이 중요합니다. 이를 위해 다음과 같은 사항을 생각해봅시다. 흔히 도메인 지식이라고 부르는, 주어진 데이터의 underlying background를 항상 고려합시다. 분석의 목적이 무엇인지 명확히 인.. 더보기
R로 하는 서울특별시 문화공간 분석 - 2편 : RSelenium을 이용한 구글 맵 크롤링 키워드: R마크다운, R leaflet, R 지도, R 분석, R 시각화, R 셀레니움, R 크롤링, R 구글 리뷰 목차 1) Intro. 2) R셀레니움을 이용한 구글 맵 크롤링 3) 데이터 확인 및 시각화 1) Intro. 지난 시간에 이어 오늘도 서울특별시 문화공간에 대한 분석을 계속 진행하고자 하는데요. 오늘은 지난 시간 분석한 데이터를 기반으로, 구글 맵에서 해당 장소들에 대한 정보를 크롤링하는 시간을 가져보도록 하겠습니다. 2) R셀레니움을 이용한 구글 맵 크롤링 하나. 패키지 로딩 및 R셀레니움 활성화 먼저 필요한 패키지를 로딩하겠습니다. 크롤링을 할 수 있는 패키지는 여러가지가 있지만, 오늘은 R 셀레니움을 이용하겠습니다. 셀레니움은 파이썬에서 크롤링할때도 아주 자주 사용되는 툴입니다. 처.. 더보기
R로 하는 서울특별시 문화공간 분석 - 1편 : 분포 시각화와 군집분석 interactive한 시각화 정보가 제대로 포함된 글을 보시고 싶으시면 첨부파일을 참고하세요. 목차 1) Intro. 2) 라이브러리 및 데이터 로딩, 전처리 3) 지도 시각화 및 데이터 확인 4) K-means 군집분석 1) Intro. 서울에서 사는 것의 가장 큰 장점은 무엇일까요? 아무래도 멀지 않은 거리에 다양하고 깊이있는 문화 체험의 공간들이 접근 가능하다는 것이 아닐까 하네요. 오늘은 서울 열린데이터광장에서 제공하는 데이터를 함께 살펴보면서, 서울시 및 근교에 문화 시설이 어떻게 분포해있는지 함께 알아보는 시간을 가지도록 하겠습니다:) 2) 라이브러리 및 데이터 로딩, 전처리 먼저 필요한 패키지를 로딩합니다. 대부분 geocoding과 관련된 패키지이며, font처리를 위한 extrafont.. 더보기