Footstep . 발자취 (182) 썸네일형 리스트형 2020/05/15 Foot step About Artificial Intelligence Learned about Gradient Descent, Polynomial Regression Cost function은 model이 data를 얼마나 잘 처리 하는지 확인하는 척도입니다. 경사 하강법은 그 Loss function을 최소화하는데에 목적이 있고 parameter를 바꿔가며 최솟값을 찾습니다. -Gradient Descent Batch Gradient Descent 전체 트레이닝 데이터를 하나의 Batch로 만들어 사용하는 기법입니다. 정확도가 좋지만 시간이 다소 오래걸리고 data set이 크면 메모리 문제도 생깁니다. Stochastic Gradient Descent(SGD) 무작위(확률적)성이 강한 이 기법은 무작위로 매 epoc.. 2020/05/14 Foot step About Artificial Intelligence Learned about Practical training -OvA 두 가지 숫자를 분류하는 실습을 진행했고, 어제는 다양한 모델을 사용했다면 오늘은 OvA로 endtoend과정을 동시에 진행했습니다. -decision_function, cross_val_predict( ) Confusion matrix와 tradeOff를 구성할 때 cross_val_predict( )과 decision_function()을 사용하여 각 sample의 점수를 얻습니다. -Draw Graph 실습 중에 두 숫자를 구분하기 위해 graph를 직접 구현해 비교해보았습니다. -Multiclass classifier 둘 이상의 클래스를 구별할 수 있습니다 -Multinomia.. 2020/05/13 Foot step About Artificial Intelligence Learned about Practical training -K-fold cross-validation tsetData를 확보하지 않으면 평가를 할 수 없고, testData를 확보하면 학습데이터가 줄어드는 딜레마에 빠지는데 이를 대응하기 위해 나왔습니다. 대상 data를 k개로 분할하고 그중 1개를 testData, 나머지 k-1개를 학습 data로 학습하는 방법입니다. testData를 변경하면서 학습과 검증을 k번 반복합니다. 이 k번 검증 결과를 평균으로 한 결과를 많이 사용합니다. -수신기 조작 특성 Receiver operating characteristic (ROC) 곡선도 이진 분류에서 널리 사용하는 도구입니다. 정밀도/재현율 곡선과 매.. 2020/05/12 Foot step About Artificial Intelligence Learned about Multiclass classifier -SGD(Stochastic Gradient Descent)Classifier SGD는 훈련하는데 무작위성이 강합니다. 그래서 '확률적인'이라는 이름이 붙여졌습니다. -수신기 조작 특성 Receiver operating characteristic은 이진분류에서 흔히 사용하는 도구입니다. 이 곡선은 거짓 양성 비율에 대한 진짜 양성 비율의 곡선입니다. 그러므로 이 곡선은 재현율에 대한 특이도 graph입니다. 좋은 graph는 이점선(중앙을 가로지르는 점선)으로부터 왼쪽 상단으로 멀리 떨어진 graph를 말합니다. -Multiclass classifier 둘 이상의 class를 분류할 수 .. 2020/05/11 Foot step About Artificial Intelligence -Housing prediction 이번 실습은 전처리 과정과 pipeline에 더 신경을 쓰고 싶었지만 아직 많이 부족하다는 것을 느꼈고, Training과 evaluation까지 했다는 것에 의미를 두고 싶습니다. -ColumnTransformer preprocessing과 modeling steps을 같이 할 수 있는 class이다. 생각보다 사용법이 간단해 쉽게 접할 수 있었지만 복잡한 구조를 다룰때에는 이것역시 시간이 다소 걸릴 것 같다. 하지만 새로운 경험을 할 수 있어서 좋았습니다. -Classification K-fold cross-validation K-겹 교차 검증은 훈련 세트를 K개로 구성해 각 폴드로 나누어 예측을 만들고 나머지 .. 2020/05/10 Foot step About Artificial Intelligence Learned about Validation set -더 알아봐야겠지만 validation set과 test set의 거리가 모호합니다. 많은 경우에 두 가지를 같은 것으로 치부하는 것을 보았습니다. 하지만 전에 Keras를 배울때는 차이가 있었던 것을 확인할 수 있었습니다. 이 부분에 대해서는 더 알아봐야 하겠습니다. -In_sample, Out of sample Out of sample는 성능을 평가하기 위해서 사용합니다. in_sample period보다 이상치에 더 예민하게 반응하고, 예측 정보를 더 잘 비춥니다. About something new To-do list [x] Get up at 7 10 [x] Organize the blanke.. 2020/05/9 Foot step About Artificial Intelligence Learned about Data analysis -dropna(axis=0) 빠른 Model Training을 위해 Stratified sampling과 MissingDataProcessing을 조금 미루고 dropna()로 nan값을 다 제거하고 바로 training을 시도 해 보았습니다. -dropna의 axis parameter는 default가 0이며, 이는 빈 row를 제거합니다. 1로 설정하면 빈 value가 있는 column자체를 제거합니다. -random_state=1는 좋은 연습용 설정이며, 설정에 관계없이 같은 결과값을 보여줍니다. 본 내용은 'Hands-On Machine Learning with Scikit-Learn and T.. 2020/05/8 Foot step About Artificial Intelligence Learned about Practical training -MissingDataProcessing 최대한 imputer활용해서 평균값으로 누락된 데이터를 처리했는데, 과정이 조금 복잡해져서 fillna() mathod도 사용해보았다. 지정값을 정해놓으면 text로도 nan을 채울 수 있다는 것을 알았다. -One_Hot_encoding 새로 보고있는 data set에 object가 많아서 One_Hot_encoding를 자주 사용해보았고, 결국에는 drop() mathod로 columns몇 개를 지웠다. 연습용이니 끝까지 가져가려 했지만 전혀 관련없는 내용이여서 진행이 더 깔끔하게 될 수 있었다. factorize() mathod로 text to i.. 이전 1 ··· 9 10 11 12 13 14 15 ··· 23 다음