Kaggle, Dacon, 공모전

# To trim down data

Kee. 2020. 5. 25. 07:52

Movie recommender ststem을 구현하기 위해 방대한 data에 정보가 부족한 data를 잘라내는 작업을 합니다.

 

 

min_movie_ratings = 10000
filter_movies = (cust_id['Movie_Id'].value_counts()>min_movie_ratings)
filter_movies = filter_movies[filter_movies].index.tolist()


min_user_ratings = 200
filter_users = (cust_id['Cust_Id'].value_counts()>min_user_ratings)
filter_users = filter_users[filter_users].index.tolist()


df_filterd = cust_id[(cust_id['Movie_Id'].isin(filter_movies)) & (cust_id['Cust_Id'].isin(filter_users))]
del filter_movies, filter_users, min_movie_ratings, min_user_ratings
print('Shape User-Ratings unfiltered:\t{}'.format(cust_id.shape))
print('Shape User-Ratings filtered:\t{}'.format(df_filterd.shape))

filtering을 마치고 del 함수로 불필요한 data를 제거하는 것도 잊지 않아야 합니다.

 

 

 

본 게시글은 'Kaggle kernels'에서 참고하였습니다.