본문 바로가기

Footstep . 발자취

(182)
2020/05/23 Foot step About Artificial Intelligence Kaggle kernels Kaggle kernels로 data 분석을 한 첫 날입니다. 듣기로 time limits이 있는 걸로 알고 있는데 아직까진 어떤 제제 없이 사용하고 있습니다. 오늘은 외부 data loading부터 제가 trim_down한 data를 불러와서 바로 Train해보았습니다. surpeise lib를 사용해 Recommender system을 구현했고 svd를 사용해서 train과 RMSE를 동시에 진행했습니다. trainset = data.build_full_trainset() split()가 error를 발생하는 바람에 build_full_trainset method로 대체하였습니다. To-do list [x] Get up ..
2020/05/22 Foot step About Artificial Intelligence Learned about BI Tableau 오늘은 Tableau를 시작한 날입니다. 유로로 전환되기 전까지 trial을 해볼 생각인데 기대 이상의 성능을 가지고 있는 것 같습니다. 이 program을 통해 python으로 하기 번거로웠던 data 탐색 및 preprocessing과 같은 여러 가지 업무를 수행이 기대됩니다. 오늘은 본격적으로 들어가기에 앞서 data를 가져오고 간단한 설정을 해보았습니다. columns의 속성(num, text, geographic, date)를 바꾸어 보고 bar graph을 만들어 보았습니다. To-do list [x] Get up at 8 40 [x] Organize the blanket [x] Put the f..
2020/05/21 Foot step About Artificial Intelligence Learned about practical training Recommender system Kaggle을 따라 Recommender system을 구현해 보았습니다. isin() 가르키는 요소가 그 data frame에 존재하는지 boolean으로 출력합니다. round() 반올림하는 함수. 인자가 두개있으면 두번째 인자는 소수점을 가르킵니다. 첫번째 소수점앞의 숫자가 홀수라면 올림하고 짝수라면 반응하지 않습니다. to_csv() : csv를 저장합니다. data를 가공해서 용량을 줄이고 새롭게 저장할 때 사용합니다. read_csv() : data를 불러들입니다. Parameter로는 header(columns이 있는지없는지), names(colu..
2020/05/20 Foot step About Artificial Intelligence Learned about practical training Baseline model processing Data preprocessing → Feature Engineering → Training → Prediction with test data. as_matrix() 대신 values()와 to_numpy()로 사용된다고 합니다. Data 준비(clean.py) 대부분 data를 파악하기 전에 train과 test을 통합하여 data를 준비합니다. 교차 검증을 하기 전, map@7의 최고 점수를 먼저 확인하고 우리의 모델 교차 검증을 진행 한 후에 그 둘을 나누면 %를 알 수 있습니다. scikit-surprise 이는 추천 시스템 algorith..
2020/05/19 Foot step About Artificial Intelligence Learned about Kaggle practice -Kaggle '머신러닝 탐구생활'이라는 책을 통해 kaggle Project을 실습해보았습니다. -원하는 insight 도출을 위해 csv file을 따로 만들었습니다. -Baseline model은 whole ML의 토대로 삼는 model을 말합니다. 구성은 아래와 같습니다. Data preprocessing, Feature engineering(파생 변수를 만들어 넣습니다.), Training model, Prediction with Test data -xgboost download 기존에 제공되었던 training model에서 벗어나서 처음으로 외부 model을 download받고 사용하였..
2020/05/18 Foot step About Artificial Intelligence Learned about Practical training -barplot 간단한 barplot을 구현해 보았습니다. -.value value method를 사용해 data를 살펴보았습니다. -pipeline 아주 기본적인 pipeline을 구성해 preprocessing을 진행했습니다. -Box Plot data distribution을 위해 주로 사용되고 min/max/medium으로 구성되어 있습니다. To-do list [x] Get up at 7 1 [x] Organize the blanket [x] Put the flower on the windowsill [x] Ask Bill [x] Do machine learning [x] One da..
2020/05/17 Foot step About Artificial Intelligence Learned about Practical training -drop() drop()은 columns와 rows를 지우고 싶을 때, dropna()(drop not available) missing data가 있을때 사용합니다. -pipeline의 구조를 잡아주기 위해 categorical과 number를 구분해주어야합니다. 나중에 합칠때에는 FeatureUnion을 import해 합쳐줍니다. To-do list [x] Get up at 7 1 [x] Organize the blanket [x] Put the flower on the windowsill [x] Ask Bill [x] Do machine learning [x] One day One co..
2020/05/16 Foot step About Artificial Intelligence Learned about -The difference factorize, one-hot-encoding factorize() method는 categotical variables로 변환해 1 demension을 갖게합니다. one-hot-encoding같은 경우에는 binary variables로 변환해 n dimensions을 출력합니다. 주로 toaaray()와 같이 사용합니다. drop('column', axis=1) column을 제외한 복사본을 생성합니다. dropna() axis를 0과 1로 지정할 수 있는데 0일 경우, missing values를 포함한 row를 삭제하고, 1일 경우에 missing values를 포함한 columns을 ..