본문 바로가기

Kaggle, Dacon, 공모전

(19)
# Dacon: EDA and Visualization for Jeju_bus_arrival_information 이번 프로젝트는 제가 잠시 제주에 있는 만큼 제주 관련된 공공데이터를 분석해보려고 합니다. 우연히 Dacon에서 좋은 데이터를 찾았는데요.! 이 데이터를 가지고 우리 나라의 큰 비중을 차지하는 교통수단중 하나인 버스가 제주에서는 어떻게 운행하고 이용되고 있는지 분석해보겠습니다. 제가 자주가는 정류장 정보도 있어서 너무 반가웠는데요. ㅎㅎㅎ 그럼 바로 시작해볼게요!. 먼저 버스 노선을 보여주는 지도입니다.(버스 노선은 제주도의 일부만 수집된 것입니다.) 이번에는 어떤 정류장이 가장 혼잡한지 한번 살펴보겠습니다. 확실히 시내가 버스가 자주, 그리고 많이 오는 것을 알 수 있습니다!. (갈색부분이 시내, 공항 근처) 그럼 이번에는 몇시에 버스가 많이 다니는지 시간대별로 알아보겠습니다. y축은 시간을 나타내고,..
NLP_Real_or_not 이번 포스트에서는 트위터에 올라온 게시글 데이터에 NLP를 적용해서 재난 재난일 때 와 그렇지 않을때 글의 내용이 어떻게 다른지 그 특징을 파악해 보겠습니다. 개략적인 프로세스는 이렇습니다. -Cleaning data (html, url, emoji, stopwords). -Tokenization. -Lemmatization. -Visualization. -Predict the model. Cleaning data 먼저 text에 있는 불필요한 요소들을 제거해보겠습니다. 재난을 암시하는 단어를 보다 정확히 추리기 위해 먼저 hashtag나 url, emoji등을 제거해주어야 하는데요. 이를 제거해주면, 이렇게 깔끔해 집니다.! Tokenization. NLP에서 텍스트 자체를 feature로 사용할 수 ..
# Project: The comparison World_University_Rankings. Introduction In this post, we will figure out how the universities are ranked by several investigations. The data sets give us the name of the world rank universities, countries and several assessments Let's dig in! the reference: Kaggle. Data sets times = timesData.csv shanghai = shanghaiData.csv cwur = cwurData.csv country = school_and_country_table.csv fee = education_expenditure_supplementar..
# Pricing Project : Spanish High Speed Train Service (Renfe AVE) Intro 합리적인 Train ticket pricing을 하기 위해 tickets pricing monitoring system의 data를 Kaggle에서 가져왔습니다. data가 너무 방대해 실습에는 작은 규모의 data를 사용하였음을 참고해주세요~ github 먼저 어떤 data가 들어있는지 한번 보겠습니다. 제가 좋아하는 도시를 추려 MADRID에서 BARCELONA까지 가는 Ticket을 알아보겠습니다. 먼저 티켓을 구매할 수 있는 사이트에 가보니까 MADRID에서 BARCELONA까지는 평균 3시간 정도 걸리고 가장 빠른 기차는 2시간 반 정도 걸린다고 하니 우리나라 KTX랑 비슷한 것 같네요~. (실제로 최고 속도도 310km/h 정도라고 합니다.) Columns explanation 첫 ..
# Training a model of Titanic Survived prediction 다양한 Algorithms으로 Model을 Training해보겠습니다. code는 github에 자세하게 올라와 있습니다. github 자주 사용하는 Algorithms으로 Training을 해보았습니다. Radom forest와 Decision tree가 압도적으로 높은데 제 model에 문제가 있는 것 같습니다~ 하지만 흥미로운 Project여서 재미있게 진행할 수 있었습니다.
# EDA of Titanic Survived Prediction Titanic Survived prediction을 위한 EDA를 진행했습니다. Data columns에는 생존자, 성별, 객실 등급, 동반 승선 유무(부모, 자식), 동반 승선 유무(형제 자매), 요금, 객실 방 이름 등이 있었습니다. Data를 빠르게 훑어 보기 위해 해본 Pivoting을 먼저 보겠습니다. 위의 테이블을 보면 객실 등급별, 성별, 동반 승선 유무(부모, 자식)별로 생존 비율을 확인 할 수 있습니다. 위의 파이 그래프는 생존자와 희생자 비율을 보여줍니다. 생존자의 성은 여성이 비교적 많았고, 평균 나이는 29세로 나타났습니다. 어린 아이들의 생존율또한 연장자보다 압도적으로 높았습니다. 왼쪽 그래프는 등급별 생존율을 보여주고, 가운데 그래프는 등급별 성비를 나타냅니다. 마지막 그래프는 ..
# EDA(House prediction) Training set과 Test set의 비율이 비슷하기 때문에 data를 합쳐 진행했습니다. Target variable인 SalePrice의 correlation입니다. SalePrice의 description and boxplot scatter with high correlated values OverallQual : 역시 퀄리티가 좋을수록 가격이 상승하는 것을 볼 수 있습니다. GarageCars : 아이러니하게도 차고가 클수록 가격이 상승하다가 마지막에 하락하는 것을 확인할 수 있습니다. GrLivArea : 실 주거공간이 실 차고공간 보다 더 급진적으로 가격이 상승하는 것을 볼 수 있습니다. 조언은 언제든지 감사합니다.~ 참조 : https://eda-ai-lab.tistory.com/8
# Azure ML studio (teaser) 가까운 미래에는 Training, validation을 비롯한 다양한 반복 작업이 자동화 되기를 바라면서 Azure ML을 이용해 간단하게 Tutorial을 해보았습니다.