본문 바로가기

전체 글

R로 하는 서울특별시 문화공간 분석 - 2편 : RSelenium을 이용한 구글 맵 크롤링 키워드: R마크다운, R leaflet, R 지도, R 분석, R 시각화, R 셀레니움, R 크롤링, R 구글 리뷰 목차 1) Intro. 2) R셀레니움을 이용한 구글 맵 크롤링 3) 데이터 확인 및 시각화 1) Intro. 지난 시간에 이어 오늘도 서울특별시 문화공간에 대한 분석을 계속 진행하고자 하는데요. 오늘은 지난 시간 분석한 데이터를 기반으로, 구글 맵에서 해당 장소들에 대한 정보를 크롤링하는 시간을 가져보도록 하겠습니다. 2) R셀레니움을 이용한 구글 맵 크롤링 하나. 패키지 로딩 및 R셀레니움 활성화 먼저 필요한 패키지를 로딩하겠습니다. 크롤링을 할 수 있는 패키지는 여러가지가 있지만, 오늘은 R 셀레니움을 이용하겠습니다. 셀레니움은 파이썬에서 크롤링할때도 아주 자주 사용되는 툴입니다. 처.. 더보기
R로 하는 서울특별시 문화공간 분석 - 1편 : 분포 시각화와 군집분석 interactive한 시각화 정보가 제대로 포함된 글을 보시고 싶으시면 첨부파일을 참고하세요. 목차 1) Intro. 2) 라이브러리 및 데이터 로딩, 전처리 3) 지도 시각화 및 데이터 확인 4) K-means 군집분석 1) Intro. 서울에서 사는 것의 가장 큰 장점은 무엇일까요? 아무래도 멀지 않은 거리에 다양하고 깊이있는 문화 체험의 공간들이 접근 가능하다는 것이 아닐까 하네요. 오늘은 서울 열린데이터광장에서 제공하는 데이터를 함께 살펴보면서, 서울시 및 근교에 문화 시설이 어떻게 분포해있는지 함께 알아보는 시간을 가지도록 하겠습니다:) 2) 라이브러리 및 데이터 로딩, 전처리 먼저 필요한 패키지를 로딩합니다. 대부분 geocoding과 관련된 패키지이며, font처리를 위한 extrafont.. 더보기
(토막글 및 잡설) 선형회귀에서 '선형'의 의미 선형회귀는 처음 구축되었을 때나 지금이나 강력하고 유의미한, 이 세상을 설명하는 방법론입니다. 머신러닝과 딥러닝의 시대를 살아가고 있다고 이야기하는 지금도 선형회귀모형의 기본 아이디어, 즉 (세상의 어떠한 현상 Y) = (적절한 변수들 X) + (X와 관계없는 잡음 u) 로 모델링할 수 있다는 일종의 신념(?)은 사실상 머신러닝과 딥러닝에서도 동일하게 스며들어 있습니다. 다만 머신러닝과 딥러닝은 이를 갈수록 발전하는 computational capacity를 이용하여 해결하고자 하는 것이지요. 그 단적인 예가 요새 캐글에서 유행하는 GB(Gradient Boosting) 계열의 알고리즘들이지 않을까 생각합니다(GB가 error term u에 대해서 접근하는 방식을 생각해보세요) 어쨌든, 선형회귀가 복잡한.. 더보기
(데이터과학 인터뷰 질문) (6) 확률변수와 확률모형의 차이 이 글 시리즈는 zzsza.github.io/data/2018/02/17/datascience-interivew-questions/에 있는 에 스스로 대답해보면서 정리해보고자 적어가는 글입니다. 주인장 분께 감사의 말씀 드립니다! 확률변수와 확률모형은 무엇인가요? 우선 영어로는 확률변수는 random variable, 확률모형은 probabilistic model이다. 확률변수는 다음과 같이 수학적으로 정의된다. 먼저 말로 풀어서 설명하면 다음과 같다. "모든 가능한 경우의 수의 집합 시그마 => 측정 가능한 공간 E" 로 전사하는 함수 측정 가능한 공간(measurable space)를 이야기하려면 측도론이라는 학문을 알아야 한다. 여기서 시그마 대수 등의 용어를 배우게 된다(사실 이 부분은 본인도 잘.. 더보기