본문 바로가기

Kaggle, Dacon, 공모전

# To trim down data

Movie recommender ststem을 구현하기 위해 방대한 data에 정보가 부족한 data를 잘라내는 작업을 합니다.

 

 

min_movie_ratings = 10000
filter_movies = (cust_id['Movie_Id'].value_counts()>min_movie_ratings)
filter_movies = filter_movies[filter_movies].index.tolist()


min_user_ratings = 200
filter_users = (cust_id['Cust_Id'].value_counts()>min_user_ratings)
filter_users = filter_users[filter_users].index.tolist()


df_filterd = cust_id[(cust_id['Movie_Id'].isin(filter_movies)) & (cust_id['Cust_Id'].isin(filter_users))]
del filter_movies, filter_users, min_movie_ratings, min_user_ratings
print('Shape User-Ratings unfiltered:\t{}'.format(cust_id.shape))
print('Shape User-Ratings filtered:\t{}'.format(df_filterd.shape))

filtering을 마치고 del 함수로 불필요한 data를 제거하는 것도 잊지 않아야 합니다.

 

 

 

본 게시글은 'Kaggle kernels'에서 참고하였습니다.

'Kaggle, Dacon, 공모전' 카테고리의 다른 글

# EDA of Titanic Survived Prediction  (0) 2020.06.02
# EDA(House prediction)  (0) 2020.05.29
# Azure ML studio (teaser)  (0) 2020.05.25
# Globe suicide rates (tableau)  (0) 2020.05.25
# split Train and Test data  (0) 2020.05.25