본문 바로가기

Kaggle, Dacon, 공모전

# Project: EDA for Kaggle_survey_2017

캐글은 데이터 사이언티스트를 위한 커뮤니티입니다. 이번 프로젝트에서는 2017년에 캐글에서 캐글러들을 대상으로 설문 조사한 내용을 분석해보겠습니다. 질문이 방대하다 보니 다 들여다보지는 못했지만 인상 깊었던 질문 위주로 한번 살펴보겠습니다. 코드는 여기를 참고해주세요.! 

 

기본적인 질문부터 살펴보면 저의 질문은 캐글러들의 연령대와 직업, 사용 중인 언어, 데이터 사이언티스트를 위한 학습 방향 등이 있습니다.

 

캐글러의 평균 연령대(왼쪽), 직업(오른쪽) 

대부분의 캐글러는 20대 중후반과 30대 초반이며, 직업은 데이터 사이언티스트가 가장 많았습니다.

 

 

캐글러의 직업 상태(왼쪽), 사용하는 언어(오른쪽)

또한 많은 사람들이 회사에서 풀타임으로 일하고 있었으며 사용하는 언어는 데이터 분석용으로 적합한 Python과 R 등이었습니다.

 

 

캐글러들의 학습 방향(왼쪽), 분석용으로 사용하는 기기(툴) (오른쪽)

역시 캐글러 답게 캐글에서 활동을 가장 많이 하며 이것을 가장 중요한 학습 방법으로 생각하고 있습니다. 또한 학습에 사용하는 기기는 기본적인 노트북이 가장 많았습니다.

풀타임 근무자의 학습 시간(왼쪽), 데이터를 얻는 방법

풀타임 근무를 하는 캐글러는 학습 시간이 1년도 채 안 되는 것을 확인할 수 있습니다.! 또 데이터를 얻는 방법은 주로 캐글에서 제공하는 것을 사용하거나 구글링을 통해 얻는 것을 알 수 있습니다.

한국인 캐글러의 직무 형태(왼쪽), 전 직무(오른쪽)

설문에 응해준 한국인 캐글러는 1%를 웃돌지만 다양한 직무 형태와 전 직장에서의 직무를 가지고 있었습니다. 의외로 대학에서 많이 채용이 되었고, 전 직무는 연구자가 많았습니다!.

 

데이터 수집하는데 드는 시간(왼쪽). Production하는데 드는 시간(오른쪽)
시각화하는데 드는 시간.

위의 그래프는 미국과 인도 그리고 한국을 비교한 그래프입니다. 시각화와 프로덕션에 소비하는 시간은  차이가 있지만 데이터를 수집하는 데는 비슷한 시간을 소비하는 것을 보여주네요!.

 

코드 공유 장소(왼쪽), 프로젝트 팀 선택(오른쪽)

많은 사람들이 자기 코드를 git을 통해 공유하고 단독적으로 프로젝트에 참여하는 것으로 보입니다.

 

 

캐글 설문조사 분석 결과로는

캐글러의 연령대의 대부분은 20대와 30이고 풀타임 근무를 하는 데이터 사이언티스트가 가장 많았으며, 분석 도구로는 Python과 R을 가장 많이 사용하고 있었습니다. 또 많은 시간을 데이터를 수집하는데 소비했고 단독적으로 프로젝트에 임했으며 사용한 코드는 git에 업로드 했습니다.!

 

 

그럼 여기까지 설문조사 분석을 마치겠습니다!

감사합니다~!

 

 

 

 

참고 : 프로그래머스