본문 바로가기

Footstep . 발자취

(182)
2020/05/7 Foot step About Artificial Intelligence Learned about Practical training -Loading data set -Scatter(Correlation), 3D Scatter matrix import Axes 3D, define x, y, z 본 내용은 'Hands-On Machine Learning with Scikit-Learn and TensorFlow' 도서를 참고하였습니다. About something new To-do list [x] Get up at 7 10 [x] Organize the blanket [x] Put the flower on the windowsill [x] Ask Bill [x] Do machine learning [x] One day One ..
2020/05/6 Foot step About Artificial Intelligence Learned about ML processing -표준 상관 계수 Standard correlation coefficient 한 column과 다른 columns과의 상관 관계가 얼마나 되는지 확인 가능한 기능이며 corr() mathod로 쉽게 계산 가능합니다. 선형적인 상관 관계만 측정합니다. 범위는 -1 ~ +1입니다. 산점도로 확인했을 때, 수평선이 보이면 algorithm이 잘못된 내용을 학습할 수 있으므로 제가 하는 것이 좋습니다. -factorize() 카테고리를 텍스트에서 정숫값으로 매핑해줍니다. -OneHotEncoder와 OrdinalEncoder OneHotEncoder와 OrdinalEncoder를 사용하면 텍스트 카테고리를 숫..
2020/05/5 Foot step About Artificial Intelligence Learned about a Test set -일반화 오차Generalization error TrainingSet으로 훈련을 하고 TestSet으로 측정을 했을때, Sample에 대한 오류 비율입니다. -Data download url로 data를 불러 tgz로 받은뒤 csv로 변환합니다 -crc 32 Sampling할때 ramdom으로 계속 하게되면 Program을 실행할 때 마다 training data와 섞이기 때문에 낙관적인 algorithm을 선택해 편차가 심할수도 있습니다. TestSet은 최대한 보지 않는 것이 좋으며 이렇게 하기위해 TestSet을 동일하게 유지해주는 crc32를 import해 사용합니다. -Identifier colu..
2020/05/4 Foot step About Artificial Intelligence Learned about ML -Unsupervised Learning 많은 경우에 hierarchical clustering 알고리즘을 사용해 군집화하는데 목적을 둡니다. 또한 차원 축소를 사용하여 너무 많은 양의 data를 잃지 않으면서 data 간소화. 마지막으로 이상치 감지가 있는데 새로운 sample이 정상인지 이상치인지 판단합니다.. -Instance-based learning/Model-based learning Instance-based learning은 data의 유사도를 찾아 시스템이 사례를 기억함으로써 새로운 data에 일반화합니다. Model-based learning은 사례 기반 학습과는 다르게 sample로부터 일반화를 시킵니..
2020/05/3 Foot step About something new Read AI books and machine learning book To-do list [x] Get up at 7 10 [x] Organize the blanket [x] Put the flower on the windowsill [x] Turn the hip hop jazz [x] Do machine learning [x] One day One commit [x] Get the supplements and the chocolate, make some water. [x] Drink coffee, Do the diary about sleeping and thoughts [x] Stretch your body for 20 min [x] Do Eng words [x] ..
2020/05/2 Foot step About Artificial Intelligence Learned about DataPreprocessing -value_counts() 이 Mathod를 사용하면 지정한 column에 대한 샘플의 개수를 확인. -describe() 이 Mathod를 사용하면 data의 평균, 편차 최대 등의 정보를 한눈에 알 수 있는데, default가 numeric만 출력하기 때문에 (include = 'all')을 추가하여 모든 column을 출력할 수 있다. -MissingDataProcessing data차원이 커지고 Nan값이 많다면 MissingDataProcessing과정이 번거로워질 수 있기 때문에 Imputer를 사용해 간단하게 nan값을median으로 채움. 단, Non-numeric data는 아..
2020/5/1 Foot step About Artificial Intelligence Learned about ANN -Batch_size Batch는 한번에 일괄처리하는 data의 수 이며 Batch의 크기는 작을수록 빠르고 간단한 연산을 수행하지만, 불안정하며 반대로 크기가 크면 안정되지만 무겁다.주로 2의 배수로 사용. -TensorBoard 시각화하기 위해 사용하는 Tool로써 변수 Grouping을 통해 한눈에 파악하기 쉽게 Graph정리. name변수로 naming하고 Scope로 묶어줌. -Hidden layer의 수 전에는 하나의 hidden layer로 충분하다고 생각했지만 복잡한 모델을 효율적으로 학습하기 위해 Hidden layer를 추가하여 DNN의 모습을 갖추었다. 하지만 Hidden layer를 추가했을때 Si..
2020/04/30 Foot step About Artificial Intelligence Learned about Tree_Based_Model -Bagging/Pasting Random Forest를 사용할 때 무작위로 sampling하여 서로 다른 Sub_set을 만들어 ensemble을 하는데 sampling에는 두가지 방법이 있다. Bagging은 TrainingSet에서 중복을 허용하여 sampling 방법이고, Pasting은 중복을 허용하지 않는 방법이다. 따라서 많은 Sub_set이 필요하다면 Bagging이 적합할 것이다. -GradientBoosting Random Forest algorithm하고는 반대로 Week Learner를 결합하여 Strong Learner를 만드는 Ensemble방법을 얘기한다. 먼저 약한 학..