sample 함수로 data를 shuffle하고 n을 기준으로 100k까지 train, 나머지는 test data로 나눕니다.
df_filterd = df_filterd.drop('Date', axis=1).sample(frac=1).reset_index(drop=True)
n = 100000
# Split train- & testset
df_train = df_filterd[:-n]
df_test = df_filterd[-n:]
'Kaggle, Dacon, 공모전' 카테고리의 다른 글
# EDA of Titanic Survived Prediction (0) | 2020.06.02 |
---|---|
# EDA(House prediction) (0) | 2020.05.29 |
# Azure ML studio (teaser) (0) | 2020.05.25 |
# Globe suicide rates (tableau) (0) | 2020.05.25 |
# To trim down data (0) | 2020.05.25 |