Movie recommender ststem을 구현하기 위해 방대한 data에 정보가 부족한 data를 잘라내는 작업을 합니다.
min_movie_ratings = 10000
filter_movies = (cust_id['Movie_Id'].value_counts()>min_movie_ratings)
filter_movies = filter_movies[filter_movies].index.tolist()
min_user_ratings = 200
filter_users = (cust_id['Cust_Id'].value_counts()>min_user_ratings)
filter_users = filter_users[filter_users].index.tolist()
df_filterd = cust_id[(cust_id['Movie_Id'].isin(filter_movies)) & (cust_id['Cust_Id'].isin(filter_users))]
del filter_movies, filter_users, min_movie_ratings, min_user_ratings
print('Shape User-Ratings unfiltered:\t{}'.format(cust_id.shape))
print('Shape User-Ratings filtered:\t{}'.format(df_filterd.shape))
filtering을 마치고 del 함수로 불필요한 data를 제거하는 것도 잊지 않아야 합니다.
본 게시글은 'Kaggle kernels'에서 참고하였습니다.
'Kaggle, Dacon, 공모전' 카테고리의 다른 글
# EDA of Titanic Survived Prediction (0) | 2020.06.02 |
---|---|
# EDA(House prediction) (0) | 2020.05.29 |
# Azure ML studio (teaser) (0) | 2020.05.25 |
# Globe suicide rates (tableau) (0) | 2020.05.25 |
# split Train and Test data (0) | 2020.05.25 |