본문 바로가기

데이터 사이언스

의사결정나무/Decision Tree 총정리, 1편 회귀 문제에서 트리는 어떻게 돌아가는가? 본 책은 ISLR 및 기타 교재, 온라인 material들을 참고했습니다. 트리 모형에 대한 개괄 - 트리 모형은 하나의 feature space를 여러 공간으로 묶는 segmenting, stratifing의 성격을 갖고 있다. - 이렇게 각각 형성된 segment에 속한 observation들은 같은 value를 갖는 것으로 추측하고, 단일한 prediction 값을 가질 수 있다. - 트리 모형은 literacy의 측면에 있어서 상당히 유리하다. 직관적이고 해석하기 쉽다. - 그러나 prediction accuracy의 측면에서는 손해를 보는 부분들이 존재한다. - 생각해 보면 당연한 일이다. 각 segment에 속한 값들을 '하나로 뭉그러뜨려서' '하나의 예측값'을 갖게 한다고 하니, 그 segm.. 더보기
R로 하는 서울특별시 문화공간 분석 - 2편 : RSelenium을 이용한 구글 맵 크롤링 키워드: R마크다운, R leaflet, R 지도, R 분석, R 시각화, R 셀레니움, R 크롤링, R 구글 리뷰 목차 1) Intro. 2) R셀레니움을 이용한 구글 맵 크롤링 3) 데이터 확인 및 시각화 1) Intro. 지난 시간에 이어 오늘도 서울특별시 문화공간에 대한 분석을 계속 진행하고자 하는데요. 오늘은 지난 시간 분석한 데이터를 기반으로, 구글 맵에서 해당 장소들에 대한 정보를 크롤링하는 시간을 가져보도록 하겠습니다. 2) R셀레니움을 이용한 구글 맵 크롤링 하나. 패키지 로딩 및 R셀레니움 활성화 먼저 필요한 패키지를 로딩하겠습니다. 크롤링을 할 수 있는 패키지는 여러가지가 있지만, 오늘은 R 셀레니움을 이용하겠습니다. 셀레니움은 파이썬에서 크롤링할때도 아주 자주 사용되는 툴입니다. 처.. 더보기
R로 하는 서울특별시 문화공간 분석 - 1편 : 분포 시각화와 군집분석 interactive한 시각화 정보가 제대로 포함된 글을 보시고 싶으시면 첨부파일을 참고하세요. 목차 1) Intro. 2) 라이브러리 및 데이터 로딩, 전처리 3) 지도 시각화 및 데이터 확인 4) K-means 군집분석 1) Intro. 서울에서 사는 것의 가장 큰 장점은 무엇일까요? 아무래도 멀지 않은 거리에 다양하고 깊이있는 문화 체험의 공간들이 접근 가능하다는 것이 아닐까 하네요. 오늘은 서울 열린데이터광장에서 제공하는 데이터를 함께 살펴보면서, 서울시 및 근교에 문화 시설이 어떻게 분포해있는지 함께 알아보는 시간을 가지도록 하겠습니다:) 2) 라이브러리 및 데이터 로딩, 전처리 먼저 필요한 패키지를 로딩합니다. 대부분 geocoding과 관련된 패키지이며, font처리를 위한 extrafont.. 더보기
(데이터과학 인터뷰 질문) (5) 샘플링과 리샘플링, 4편 : 교차검증과 하이퍼 파라미터 튜닝 이 글 시리즈는 zzsza.github.io/data/2018/02/17/datascience-interivew-questions/에 있는 에 스스로 대답해보면서 정리해보고자 적어가는 글입니다. 주인장 분께 감사의 말씀 드립니다! 리샘플링의 다양한 방법론들, 4편 교차검증(Cross-validation)과 하이퍼 파라미터 튜닝 이번 글에서는 교차검증을 실제 모델링에서 사용하는 다른 방법인 하이퍼파라미터 튜닝에 대해서 알아보자. 이 아이디어는 단순하면서도 꽤나 강력하다. 기본 개념은 리샘플링 시리즈에서 계속 다루는 내용과 동일하다. 즉, 주어진 데이터셋을 얼마나 최대한 뽑아먹으면서, variance는 줄이고, 다른 데이터셋에서도 잘 작동할 만한 모델을 수립하고자 하는 것이다. 우리가 실제로 다루게 되는 많.. 더보기
(데이터과학 인터뷰 질문) (4) 샘플링과 리샘플링, 3편 : 교차검증 (1) 이 글 시리즈는 zzsza.github.io/data/2018/02/17/datascience-interivew-questions/에 있는 에 스스로 대답해보면서 정리해보고자 적어가는 글입니다. 주인장 분께 감사의 말씀 드립니다! 리샘플링의 다양한 방법론들, 2편 교차검증(Cross-validation) 교차검증은 내 모델의 '실제' 성능을 가늠해보기에 상당히 합리적이고 훌륭한 리샘플링 방법론이다. 리샘플링을 이용해서 생성한 다양한 'validation set'을 통해 모델의 성능을 측정한다. '실전에서 내 모델이 어떻게 작동할지'를 가늠해 보는 방법이라고 생각할 수 있다. 오버피팅이나 selection bias를 발견해 내는 방법이 될 수도 있다. 직관적인 이해를 위해, 선형회귀모형 Y = B0+B1X.. 더보기
(데이터과학 인터뷰 질문)(1) 고유값과 고유벡터, 그리고 PCA 이 글 시리즈는 zzsza.github.io/data/2018/02/17/datascience-interivew-questions/에 있는 에 스스로 대답해보면서 정리해보고자 적어가는 글입니다. 주인장 분께 감사의 말씀 드립니다! 고유값과 고유벡터란? 정의에 의해, 행렬 A를 임의의 열벡터 x에 대한 선형변환이라 하자. 이 때, Av = λv를 만족하는 열벡터 v를 행렬 A의 고유벡터, 상수 λ를 행렬 A의 고유값이라고 한다. 즉 다음과 같다. 더 general하게 이야기한다면, 고유값/고유벡터는 모든 linear transformation에 대해 이야기할 수 있다. 예를 들어 미분연산자 d/dx에 대해서도 '고유함수'를 이야기할 수 있다. 어떠한 선형변환의 가능한 모든 고유값/고유벡터 쌍의 집합을 ei.. 더보기
(영어만 되면 할 수 있는) 문과 데이터 과학 기초공부 팁 (1) 데이터 과학의 booming에 따라서 많은 문과생(특히 경영학 분야 학생들) 분들께서 데이터 과학자/분석가로서의 커리어를 꿈꾸시는 것으로 압니다. 그러나, 그 길을 가기 위해 무언가 시작해보려 첫 발을 내딛고자 해도 배경지식이 전무하신 분들이 대다수이며, 결국은 인터넷에서 열심히 광고하는 몇몇 IT 관련 학원들의 말속임(?)에 넘어가 고액의 학원비를 지불해가며 반년에서 일년 정도의 시간을 허비하게 되는 경우가 많습니다. 물론 아직 저도 데이터과학자로서의 길을 준비하고 있는 사람으로서 제 글에 싣을 만한 authority는 없지만, 그래도 같은 길을 힘겹게 걸어가고 계실 랜선 학우분들에게 조금이나마 도움이 되고자 이러한 글을 적습니다. (아래 글은 문과생 한정입니다. 제가 문과 출신이다 보니 이공계열에서 .. 더보기