본문 바로가기

Kaggle, Dacon, 공모전

# Project : Melbourne Housing Market

Intro

멜버른은 남쪽에 있는 대도시중 한 곳입니다. 제가 잠시 호주에 있을 때 시티 안에서 살고 싶었지만 그럴 수 없었기에 이렇게라도 그 바람을 풀고자 호주 시티에는 어떤 아파트들이 있는지 구경이라도 해보겠습니다. 자세한 코드는 여기를 참고해주세요!. Kaggle.

Columns explanation

먼저 columns이 꽤 많기 때문에 묶어서 보겠습니다. 먼저 종속 변수인 Price가 가격을 나타내 줍니다. Suburb, Address, Regionname,  Propertycount, Distance는 주소와 위치가 관련된 col이기 때문에 같은 범주로 보겠습니다. Rooms, Bedroom2, Bathroom은 집 내부 구조에 관련된 것이기 때문에 마찬가지로 같은 범주로 보겠습니다. Landsize, BuildingArea, Car, YearBuilt은 property의 면적, 외부 조건과 관련이 있습니다. Type은 집의 형태를 나타내는 col입니다. Date은 계약된 날짜입니다. CouncilArea, SellerG은 지역을 관리하는 기관과 부동산을 나타내는데 그다지 중요해 보이지 않습니다.

 

EDA

Regionname은 Numeric으로 만들어주기 위해 아래와 같이 변경해주었습니다. (Object to numeric)

기준은 0부터 CBD와 가까운 순서대로 바꾸어 주었습니다.

Southern Metropolitan:0, Northern Metropolitan:1, Western Metropolitan:2,

Eastern Metropolitan:3, South-Eastern Metropolitan:4, Western Victoria:5, Northern Victoria:6, Eastern Victoria:7

 

대게 CDB(시티 중심)와 근접할수록 가격이 비싼 것을 확인할 수 있습니다. (밑에서 시각화하여 더 자세하게 보겠습니다.) 

가장 거리가 먼 3 지역을 제외하고는 CBD와 거리가 가까울수록 매물이 많은 것으로 나옵니다.

Visualization

price와 다른 Features사이에 큰 상관관계는 보이지 않습니다. 

 

침실이 많을 수록 높은 가격이 책정되는 것을 알 수 있습니다. 화장실도 마찬가지로 개수가 늘어날수록 뚜렷하게 증가하는 것을 보여줍니다.(화장실이 많이 필요한가요..?) 지역명을 '가까운 곳'과 '가깝지 않은 곳'으로 나눈다면 가격차이를 확인할 수 있습니다. 또한 CBD와 가장 근접한 0번 구간(Southern Metropolitan)은 매물이 가장 많으며 가격대도 가장 높게 형성이 되어 있습니다.

 

차고의 갯수는 그다지 가격에 큰 영향을 끼치는 것 같지는 않습니다. 오른쪽 그래프는 Distance와 Price의 상관관계입니다.

Preprocessing

- Missing data processing

Regionname, Propertycount, Postcode이 columns은 NaN값이 많지 않아 일일이 맞는 값을 채워주었습니다.(우편 번호가 없다면 Suburb로 확인 가능하고 Region name도 마찬가지였습니다.!)

가장 중요한 것은 종속 변수(Price)에 결측 값이 결측 값이 많다는 것입니다. 어떻게 채울지가 관건인데 가운데 이미지를 보면 결측 값이 21.8%인 것을 확인할 수 있습니다. 

Price에도 너무 높게 가격이 책정된 row는 제거했습니다. (Price <= 8M).

나머지 missing value는 평균치에 맞게 채워주었습니다.

 

자 그럼 괜찮은 주택을 한번 알아보겠습니다. 이왕 하는거 CBD에서 가장 가깝고 좋은곳으로 잡아보겠습니다.!

그렇다면 지역은 Southern Metropolitan가 좋을 것 같습니다. 매물도 많고 우리가 원하는 조건과 맞습니다. 어떤 Suburb가 있는지 한번 살펴볼게요.

매물은 Bentleigh East가 가장 많지만 저는 가장 비싼곳으로 가고 싶습니다. 가격과 비교해볼게요.

 

Canterbury로 정했습니다. 출세했네요.!

house type은 house(주택, 저는 주택을 좋아합니다.)로 하고 price는 4M 이상으로 맞추니 10개정도의 집이 추려졌습니다.(주소는 공개하지 않을게요!.) Google map으로 보니 근사한 집이 많네요.ㅎㅎㅎ

 

 

 

 

 

이것으로 마치겠습니다. 조언은 아낌없이 주세요~

감사합니다!