본문 바로가기

Kaggle, Dacon, 공모전

#공모전 : 2020년 문화ㆍ관광 빅 데이터 분석대회

이번 포스트에서는 저와 제 지인이 함께 참가했던 프로젝트를 리뷰해보려고 합니다.!

이 공모전을 간단하게 소개드리자면 코로나 바이러스가 국내 문화 관광에 미친 영향과 앞으로의 전망을 예측하는 대회였고, 저희 팀은 이번 프로젝트를 통해 카드사에서 제공되는 방대한 양의 데이터를 다루고 여러 종류의 다양한 데이터를 수집해 볼 수 있었던 좋은 기회가 되었습니다.

카드사에서 제공되는 데이터는 대회 기간에만 사용 권한이 주어졌고, 이후 전부 폐기를 했기 때문에 자세하게 다루지는 않겠습니다. 

그럼 먼저 저희 팀이 수집한 데이터는 이렇습니다.

 

Explanation of the data sets

 

각 산업별 경상지수 데이터, 문화 예술 공연 데이터
 외.내국인 입.출국, 수익,지출 데이터

w는 각 산업별 경상지수를 담고 있는 데이터이며, 문화 관광과 연관이 있는 교통 산업, 숙박업, 면세점 등 다양한 피처가 있습니다.

cul은 국내 문화 예술 공연이 얼마나 개막하고 상영하는지와 지출액 티켓 예매수에 대한 데이터를 가지고 있습니다.

trip은 외국인의 입국과 지출(수익), 내국인의 출국과 지출 정보를 가지고 있는 데이터입니다. 

 

Visualization

 

모든 데이터는 시계열 데이터이며, 코로나 바이러스가 발생하기 이전부터 축척되었기 때문에 그 영향을 더 효과적으로 시각화할 수 있었습니다.

먼저 국내 문화 예술 공연에는 연극, 뮤지컬, 오페라 등이 있으며 점진적으로 시장이 성장해 2019년에는 최고치를 기록했지만 코로나의 영향으로 급감소하는 것을 위의 그래프를 통해 확인할 수 있습니다.

 

 

교통 산업 이용객 증감률

교통 산업에서는 관광과 관련이 큰 항공 와 기차가 크게 감소하는 것을 확인할 수 있습니다. 버스 같은 경우에는 외출 자제와 자택 근무, 휴교 등에도 불구하고 크게 감소하지 않은 것으로 보입니다. 지하철은 코로나의 영향을 받은 것으로 보이네요.!

 

 

숙박업 이용객 증감률

예상했던 대로 숙박업도 코로나의 큰 영향을 받았습니다. 국내 관광이 얼마나 침체되었는지 한눈에 알 수 있겠죠??

 

Prediction and Result

시각화에서 눈치 채신 분도 있겠지만 코로나의 영향으로 그래프가 급하락 한 이후에 조금씩 다시 올라가는 것을 확인할 수 있습니다. (최근 날짜까지 업데이트된 데이터가 카드사에서 제공된 데이터밖에 없어서 이 글에서 다루지 못해 아쉽네요..)

 

그럼 이제 모델링을 시작해볼까요?? 제가 전망을 예측하기 위해 사용한 모델은 시계열 데이터 분석에 적합한 ARIMA 모형을 사용했습니다. 

여러 데이터셋을 훈련시켰지만 결과가 가장 잘 나온 문화 예술 공연 예매수 예측 모델을 보여드리겠습니다 ㅎㅎㅎ

먼저 데이터 셋에서 날짜와 종속 변수(예매수)를 새로운 변수에 할당하고 set_index() 함수로 date를 인덱스로 넣어줍니다. 그리고 종속 변수를 series형태로 만들어 주었습니다.

 

위의 그래프가 보여주듯이 데이터가 정상성(Stationarity)을 띄지 않았기 때문에 differencing을 해서 stationary 한 형태로 만들어야  model의 정확도가 올라가지만 하지만 parameter tuning이 잘못되었는지 model이 잘 훈련하지 못했기 때문에 데이터 형태 변환 없이 그대로 진행했습니다. ARIMA model을 결정짓는 적합한 p, d, q를 선택하는데 도움을 주는 auto_arima를 먼저 돌려 (1,1,3)이라는 값을 얻고 훈련을 시켜보았습니다.!

먼저 데이터의 Density와 잔차를 확인해보겠습니다. 정규성에 가까워야할 Density가 뾰족한 것을 확인할 수 있습니다.(원래는 조금 더 완만해야 합니다..ㅎㅎ)

위의 그래프는 이전의 데이터를 예측한 것인데 꽤 그럴싸하지 않나요?!

 

모델이 말해주는 문화 공연 예술의 전망은 빠른 재성장을 보여주면서 꾸준히 성장하는 전망을 예측했습니다. 

 

 

마무리

코로나 바이러스가 국내 문화 예술 및 관광에 분야에 미치는 영향은 매우 컸지만, 정부의 발 빠른 대응과 코로나 바이러스를 올바르게 이해한 시민 의식이 함께 이루어져, 내국인의 국내 문화 관광 활동과 외국인 관광객 재유입을 비롯해 국내 내수 시장이 서서히 재활성화되는 것을 데이터 분석을 통해 확인할 수 있었습니다.

 

후기

공공기관에서 주최했던 공모전이였던만큼 공공데이터를 원 없이 수집하고 다뤄본 것 같아 후회 없는 프로젝트였습니다.

또한 팀으로 프로젝트를 진행하면서 협업이 얼마나 중요한지 저와 함께한 파트너와 절실히 느꼈습니다. ㅎㅎㅎ

정말 많은 것을 배울 수 있었던 프로젝트였기 때문에 기억에 오래 남을 것 같아요!