본문 바로가기

데이터 사이언스/잡담 및 TIPS

(영어만 되면 할 수 있는) 문과 데이터 과학 기초공부 팁 (1)

 


  데이터 과학의 booming에 따라서 많은 문과생(특히 경영학 분야 학생들) 분들께서 데이터 과학자/분석가로서의 커리어를 꿈꾸시는 것으로 압니다. 그러나, 그 길을 가기 위해 무언가 시작해보려 첫 발을 내딛고자 해도 배경지식이 전무하신 분들이 대다수이며, 결국은 인터넷에서 열심히 광고하는 몇몇 IT 관련 학원들의 말속임(?)에 넘어가 고액의 학원비를 지불해가며 반년에서 일년 정도의 시간을 허비하게 되는 경우가 많습니다.

 

  물론 아직 저도 데이터과학자로서의 길을 준비하고 있는 사람으로서 제 글에 싣을 만한 authority는 없지만, 그래도 같은 길을 힘겹게 걸어가고 계실 랜선 학우분들에게 조금이나마 도움이 되고자 이러한 글을 적습니다.

 

(아래 글은 문과생 한정입니다. 제가 문과 출신이다 보니 이공계열에서 준비하시는 분들은 해당사항이 없을 가능성이 큽니다.)

 


 

  (1) 웬만하면 학원은 가지 말자

  

  물론 제가 뭐라고 학원에서 가르치시는 대기업 출신 강사분들이 이렇다 저렇다 할 수 있겠느냐만은, 사실 학원에서 요구하는 고액의 학원비가 과연 그만한 값어치의 지식을 가르치느냐 묻는다면 그렇다고 하지는 못할 것 같습니다. 보통 요새 데이터과학 가르친다고 하는 학원의 데이터과학 코스 커리큘럼을 보면 대강 이러한 식입니다.

 

"먼저 데이터과학이 뭔지 알아야겠지? 데이터과학은 데이터 가지고 이런저런 일을 하는데, 이게 황금알을 낳는 거위이고 4차산업시대에 꼭 필요한 인재가 되려면 꼭 배워야 해. 그럼 더 복잡한 걸 배우기 전에 먼저 기본적인 통계학(경영통계학 수준의 통계학)이랑 수학 이론(미적분과 선형대수학 기초) 정도만 짚고 넘어가볼까? 이 정도 배웠으면 이제 본격적인 분석 방법론을 배울 수 있어! 회귀분석, 군집분석, 로지스틱 분석, 신경망, SVM 등이야! 이름만 들어도 뭔가 데이터를 잘 분석해 줄 것 같지 않니?!(실제로 이렇게 말씀하시지는 않을듯) 자, 이제 배웠던 지식을 실제로 적용해보자! iris 데이터셋과 Boston housing price 데이터셋에 회귀모델과 분류모델을 적용해보는거야! 자, MSE와 Accuracy가 굉장히 낮게 나왔네?! 이것으로 여러분은 데이터 과학을 배웠어요!'

(과장 주의)

 

  이러한 커리큘럼에는 다음과 같은 이유(+α)로 인해 한계가 있을수밖에 없습니다.

    

     - 경영통계학(기초통계학) 수준의 통계학은 실무에 적용하기에는 너무나 단순하다. 왜나하면 univariate(변수가 하나)한 경우만 다루기 때문

     - 머신러닝 / 모델링에 관한 이론을 더 깊게 공부하려면 통계학적 사고 방식은 필수다.

     - 6개월 정도의 과정에서 배우기에는 각각의 카테고리 하나하나에 들어간 수학적 직관과 아이디어는 너무나 깊다.

       * 당장 회귀분석 하나만 하더라도 통계학과 3학년 때 한학기 내내 듣는 수업이며, 그 수업에서조차 모든 걸 다 배우지는 못한다.

     - 실제 실무에서 마주할 데이터셋은 examplary dataset들과는 전혀 다르다. 정제도 안 되어있고, 맹목적으로 방법론을 적용하기가 어렵다.

     - 추후 실무에서 내 자리를 지키고 승진하는 사람이 되고 싶으면 결국은 어느 시점에는 어느 정도 수준의 수학과 통계학이 필요하게 되어 있다.

 

 

  따라서 국비지원이나 학원 등의 과정을 밟고 싶다면 이미 수학/통계학적으로 기초가 탄탄하신 분들께서 데이터 과학을 하기 위한 언어를 배우고 싶다거나, 그러한 과정에서 우수학생으로 선발된 경우 학원에서 주선하는 기업과의 직접적 취업연계를 노리시는 경우라면 도움이 많이 되지 않을까 싶다.

 

 


  그렇다면, 문과생들은 데이터과학 배우기를 포기해야 할까요? 대부분의 문과생들은 수학이라고는 19살 이후로 쳐다보지도 않은 경우가 많을텐데,당장 혼자서 수학공부에 어떻게 뛰어들 수 있을까요? 고등학교 때 수학부터 공부해야 하는걸까요?

 


  (2) 혼자서 수학 공부하기 & 기초 준비하기

  

  먼저 한가지 짚고 넘어가자면, 문과생으로서 데이터분석가/과학자가 되고 싶다는 건 이미 본인이 스스로 고난의 길을 선택했다는 말과 동일합니다. 남들은 먼저 배우고 시작하는 걸 땜빵(?)하기 위해서 그만큼의 어마어마한 노력을 들여야하고, 시간과 재정적 여유가 있다면 1~2년 정도의 휴학과 대학원 진학까지 필요할지도 모릅니다. 그럼에도 불구하고 "나는 죽어도 꼭 데이터 사이언티스트가 되고 싶다!"라고 한다면, 기초 수학 체력을 쌓는 것이 너무나도 중요합니다. 데이터 과학자가 되기 위해서 필수적인 수학/통계학 지식은 보통 다음과 같습니다.

 

  • 이공계열 기본 수학 : 다변수 미분적분학(보통 대학교에서 미분적분학(2)라는 이름으로 배움), 선형대수학

  • 수리통계학(기초통계학 아님) - 확률과 확률변수, 분포 등에 대한 엄밀한 수학적 정의 및 추론통계학

  • 회귀분석 - 일반회귀모형에 대한 이해

  • 기타 수학지식(꼭 필수는 아닐수도 있으나 알면 손해는 절대안봄. 특히 논문읽을때) - 최적화 이론, 미분방정식, 해석학, 집합론

 

  사실 이 모든 것들을 혼자서 공부한다는 건 너무나 벅찬 일입니다. 따라서 다음과 같은 사항들을 고려하시는 것을 추천합니다.

 


- 아직 대학생이라면 학교에서 가능한 정규 전공/수학 과정을 적극 활용하자.

  

  (1) 대부분의 학교는 학교에서 제공하는 기초 수학 과목들이 있습니다. 특히나 미분적분학 과목은 공대가 있는 학교라면 무조건 기초과목으로 개설되어 있으며, 인문/사회계열 전공자도 원한다면 들을 수 있습니다. 다만, 미분적분학 수업의 경우 고등학교 수준의 기초적 미분적분학 지식을 필요로 하는 경우가 대다수입니다(애초에 이과생들이 고등학교 때까지 수업을 잘 들었다고 가정하고 시작하는 수업인지라...). 기초적인 지식을 쌓기를 원하시는 경우에는 다음 글에서 설명드릴 과정들을 적극 활용하시는 편을 추천합니다. 그리고 선형대수학의 경우는 선수과목이 없는 수학과목입니다. 무엇보다도 그 어떠한 외부 강의도 결코 학교에서 교수님들께 직접 배우는 강의만큼은 못하다는 사실을 아셔야합니다.

  

  (2) 만약에 학교에서 관련 학과 복수전공이 가능하다면, 적극적으로 활용하도록 합시다. 저희 학교 같은 경우에는 산업공학과가 있는데, 해당 과의 대부분의 강의들이 공업수학부터 이수해야 다른 과목을 들을 수 있기 때문에 결론적으로 기초쌓기에 상당한 도움이 됩니다. '데이터마이닝' 등의 수업을 들을 수 있는 학과라면 좋습니다. 통계학과라면 베스트라고 생각합니다. 각 학교 커리큘럼마다 다르겠지만, 커리큘럼이 '컴퓨터공학'에 가깝게 구성되어 있다면 비추합니다. 데이터 과학자는 수학적으로 모델링하는 사람들이라는 사실을 항상 기억해야 합니다. 사실 이 부분은 특히나 국비지원 관련 프로그램 선택하실 때 주의깊게 보셔야 합니다. 데이터분석가 키운다는데 자바 가르치고 있으면 건너뛰는 편이 좋습니다.   


- 유튜브 풀강/무료 교재/구글을 적극 활용하자.

 

  : 사실 이 부분부터 영어의 중요성이 강조됩니다. 뜬금없이 왜 영어냐구요? 다음 글에서 이어갈 논지인데, 인터넷 상에서 무료로 풀려있는 교재의 양이 영어에 비해서 한글이 너무나도 초라할 정도로 작습니다.  반면 내가 영어로 된 강의/대학교 교재를 어느정도 받아들일 수 있는 수준이 된다면 인터넷에서 얻을 수 있는 지식의 양은 정말로 방대합니다. 심지어 난이도/단계별로 스스로 커리큘럼을 짜는 것도 어느 정도 가능합니다. 인터넷을 통한 데이터과학 자습 커리큘럼 구성에 있어서는 다음 글에서 이어가고자 합니다.

 

  

 

읽어주셔서 감사합니다 :)