본문 바로가기

전체 글

(598)
나의 생활 데이터를 분석하라! 데이터를 분석하는 사람으로서 내 일상생활을 데이터로 남기고 그것을 분석해보면 어떨까 라는 아주 흥미로운 생각을 하게 되었습니다. 그래서 준비한 이번 포스트에서는 생활 데이터가 어떤 건지, 어떻게 모았는지 그리고 어떻게 분석했는지에 대해 알아보겠습니다.! 생활 데이터란, 일상에서 자주 하는 행동을 기록한 데이터입니다. 사람마다 기록하는 방식이 다르겠지만 저는 제가 자주 하는 행동 몇 가지를 1점부터 5점까지의 점수를 주어 평가를 하고 마지막에 종합적인 점수를 줍니다. 이 종합적인 점수를 통해 어떤 하루를 보냈는지 개괄적으로 알 수 있습니다. 저는 제가 매일하는 네 가지의 중요한 행동을 데이터로 쌓기 시작했습니다. 이 대표적인 4가지 행동은 운동, 공부, 독서, 잠입니다. 이렇게 데이터를 모으다 보면 하루하..
#대회 : 행정안전부ㆍ한국정보화진흥원 공공 빅데이터 프로젝트 좋은 팀원들을 만나 대상이라는 소중한 결실을 맺었습니다.
#공모전 : 2020년 문화ㆍ관광 빅 데이터 분석대회 이번 포스트에서는 저와 제 지인이 함께 참가했던 프로젝트를 리뷰해보려고 합니다.! 이 공모전을 간단하게 소개드리자면 코로나 바이러스가 국내 문화 관광에 미친 영향과 앞으로의 전망을 예측하는 대회였고, 저희 팀은 이번 프로젝트를 통해 카드사에서 제공되는 방대한 양의 데이터를 다루고 여러 종류의 다양한 데이터를 수집해 볼 수 있었던 좋은 기회가 되었습니다. 카드사에서 제공되는 데이터는 대회 기간에만 사용 권한이 주어졌고, 이후 전부 폐기를 했기 때문에 자세하게 다루지는 않겠습니다. 그럼 먼저 저희 팀이 수집한 데이터는 이렇습니다. Explanation of the data sets w는 각 산업별 경상지수를 담고 있는 데이터이며, 문화 관광과 연관이 있는 교통 산업, 숙박업, 면세점 등 다양한 피처가 있습니..
# Project: EDA for Kaggle_survey_2017 캐글은 데이터 사이언티스트를 위한 커뮤니티입니다. 이번 프로젝트에서는 2017년에 캐글에서 캐글러들을 대상으로 설문 조사한 내용을 분석해보겠습니다. 질문이 방대하다 보니 다 들여다보지는 못했지만 인상 깊었던 질문 위주로 한번 살펴보겠습니다. 코드는 여기를 참고해주세요.! 기본적인 질문부터 살펴보면 저의 질문은 캐글러들의 연령대와 직업, 사용 중인 언어, 데이터 사이언티스트를 위한 학습 방향 등이 있습니다. 대부분의 캐글러는 20대 중후반과 30대 초반이며, 직업은 데이터 사이언티스트가 가장 많았습니다. 또한 많은 사람들이 회사에서 풀타임으로 일하고 있었으며 사용하는 언어는 데이터 분석용으로 적합한 Python과 R 등이었습니다. 역시 캐글러 답게 캐글에서 활동을 가장 많이 하며 이것을 가장 중요한 학습 ..
# project : EDA_Prediction_Telco_Customer_Churn Introduction 한 통신사에서는 고객의 다양한 경험을 위해 여러 가지의 product로 service를 제공합니다. 이 기업은 데이터 분석을 통해 서비스를 이탈하는 고객을 막고 이용하는 고객을 유지시키려고 합니다. data는 고객의 특성을 설명해줍니다. 코드 참고 : Kaggle. Columns explanation - 고객의 정보로는 성별, 배우자 유무, 부양 가족 유무, 고객이 기업 서비스를 이용한 월 수, 전자 청구서 사용 유무, 계약 조건(매달, 일년, 이년), 결재 방식, 납부 요금, 총 납부 요금 등이 있습니다. - 기업의 service로는 핸드폰 서비스, 다회선 통신, 인터넷 서비스, 인터넷 보안, 온라인 백업, 기기 보안 가입, 기술 보조 가입, 스트리밍 TV와 영화 가입 등이 있습..
# Project: EDA and visualization for good books 이번에는 제가 좋아하는 장르인 Book관련 data를 살펴보면서 어떤 흥미로운 insight가 있을지 탐험해보겠습니다. 다음으로 읽을 책은 뭐가 좋을까요?? github. Kaggle. 저는 평점에 민감한 독자이기 때문에 먼저 평점을 확인해보겠습니다. 다른 독자분들은 전체적으로 후한 점수(4점대)를 주었습니다.(0점도 보이네요..) 읽을 책이 많겠네요.! 위의 그래프는 메이저 출판사를 시각적으로 보여주는 그래프입니다. 100권 이상 책의 출판을 맡은 출판사는 13.5%라는 것을 보여줍니다. EDA 먼저 rating_count(별 점수)를 기준으로 다른 features과의 상관관계를 한번 살펴보겠습니다. 기준을 별점 수로 잡은 이유는 판매고(개인적으로 저는 많이 팔린 책을 선호하는 경향이 있습니다.)가 따..
# Project : Melbourne Housing Market Intro 멜버른은 남쪽에 있는 대도시중 한 곳입니다. 제가 잠시 호주에 있을 때 시티 안에서 살고 싶었지만 그럴 수 없었기에 이렇게라도 그 바람을 풀고자 호주 시티에는 어떤 아파트들이 있는지 구경이라도 해보겠습니다. 자세한 코드는 여기를 참고해주세요!. Kaggle. Columns explanation 먼저 columns이 꽤 많기 때문에 묶어서 보겠습니다. 먼저 종속 변수인 Price가 가격을 나타내 줍니다. Suburb, Address, Regionname, Propertycount, Distance는 주소와 위치가 관련된 col이기 때문에 같은 범주로 보겠습니다. Rooms, Bedroom2, Bathroom은 집 내부 구조에 관련된 것이기 때문에 마찬가지로 같은 범주로 보겠습니다. Landsiz..
# Project: EDA and preprocessing for a box office revenue Introduction I just watch movies if my favourite actors are on there. Even if it is not hit. I just love movie stuff. so I'm truly excited being on this project!. even though I've got to predict the revenue haha. at this project, we will explore the data(EDA) and train a model! let's get started. Kaggle. Basically, the data is quite tidy, not many missing values. and I believe some data are not ..