본문 바로가기

Kaggle, Dacon, 공모전

# Project: EDA and visualization for good books

이번에는 제가 좋아하는 장르인 Book관련 data를 살펴보면서 어떤 흥미로운 insight가 있을지 탐험해보겠습니다. 다음으로 읽을 책은 뭐가 좋을까요?? github. Kaggle.

 

저는 평점에 민감한 독자이기 때문에 먼저 평점을 확인해보겠습니다.

 

다른 독자분들은 전체적으로 후한 점수(4점대)를 주었습니다.(0점도 보이네요..) 읽을 책이 많겠네요.!

 

위의 그래프는 메이저 출판사를 시각적으로 보여주는 그래프입니다.  100권 이상 책의 출판을 맡은 출판사는 13.5%라는 것을 보여줍니다.

 

 

 

 

EDA

먼저 rating_count(별 점수)를 기준으로 다른 features과의 상관관계를 한번 살펴보겠습니다. 기준을 별점 수로 잡은 이유는 판매고(개인적으로 저는 많이 팔린 책을 선호하는 경향이 있습니다.)가 따로 없기 때문에 별점 수로 도서가 얼마나 판매되었는지 알 수 있는 유일한 지표라고 생각했습니다. 위의 그래프를 보면 text review 수와 큰 상관 관계를 보이는 것을 확인할 수 있습니다. 그럼 여러가지 질문을 해볼 수 있는데요.!

 

Q1 : 별점수가 많을수록 별점도 높을까요?

Q2 : Riview가 많을수록 판매고와 별점도 높을까요?

Q3 : 출판사가 메이저일수록 판매고(별 점수)가 높을까요?(추가적으로 major와 minor의 비교도 해보겠습니다.)

Q4 : 페이지수와 Rating count의 연관성이 존재할까요?

Q4 : 출판 일자와 판매량(별 점수)으로 출판이 오래된 책일수록 판매가 높을까요?

A1 : 평균 별점인 4점대에 별점수가 몰려있는 것을 알 수 있습니다.

A2 : 왼쪽 그래프를 보면 책의 리뷰가 많을수록 판매고가 높을 것으로 판단됩니다. 하지만 별점과는 큰 연관성을 띄지 않습니다.(리뷰가 꼭 긍정적인 것만은 아니니까요~.)

 

 

A3 : major로만 비교해 봤을 때는 비교하기 힘든 것 같습니다.

하지만 graph상에서 minor publishers(출판 권수가 10권 이내)를 3으로 보고 major publishers(출판 권수가 100권 이상)를 1로 보았을 때 확연히 높을 것을 볼 수 있습니다.

 

 

 

A4 : 저는 책의 장수가 많은 두꺼운 책일수록 기필코 별점을 주는 줄 알았는데 애당초 많은 사람들은 페이지수가 많은 책을 잘 읽지 않는 것 같습니다..ㅎㅎ

 

그럼 리뷰와의 상관 관계를 보겠습니다.!

네.. 많이 않읽습니다.ㅎㅎㅎ

 

 

Data를 제공해준 site의 집계에 따르면 65%에 가까운 도서가 21세기에 출판이 되었습니다. 그리고 독자들도 21세기에 나온 도서들을 더 선호함을 알 수 있습니다.