Titanic Survived prediction을 위한 EDA를 진행했습니다.
Data columns에는 생존자, 성별, 객실 등급, 동반 승선 유무(부모, 자식), 동반 승선 유무(형제 자매), 요금, 객실 방 이름 등이 있었습니다.
Data를 빠르게 훑어 보기 위해 해본 Pivoting을 먼저 보겠습니다.
위의 테이블을 보면 객실 등급별, 성별, 동반 승선 유무(부모, 자식)별로 생존 비율을 확인 할 수 있습니다.
위의 파이 그래프는 생존자와 희생자 비율을 보여줍니다.
생존자의 성은 여성이 비교적 많았고, 평균 나이는 29세로 나타났습니다. 어린 아이들의 생존율또한 연장자보다 압도적으로 높았습니다.
왼쪽 그래프는 등급별 생존율을 보여주고, 가운데 그래프는 등급별 성비를 나타냅니다. 마지막 그래프는 앞의 두 그래프를 하나로 일목요연하게 정리 해놓은 그래프입니다.
Missingno를 사용해 MissingValue를 멋지게 시각화 해보았습니다.
'Kaggle, Dacon, 공모전' 카테고리의 다른 글
# Pricing Project : Spanish High Speed Train Service (Renfe AVE) (0) | 2020.06.04 |
---|---|
# Training a model of Titanic Survived prediction (0) | 2020.06.04 |
# EDA(House prediction) (0) | 2020.05.29 |
# Azure ML studio (teaser) (0) | 2020.05.25 |
# Globe suicide rates (tableau) (0) | 2020.05.25 |