본문 바로가기

ML | DL

(5)
XGBoost regressor 이번 포스트에서는 최근에 진행했던 프로젝트를 마무리하며 그 프로젝트해서 구현했던 모델을 리뷰해보는 시간을 갖겠습니다. 이번 프로젝트에서는 제주도의 교통약자를 위한 교통환경을 개선하고자 저상버스의 노선을 최적화하는 방안을 제안하는 것이었습니다. 저희가 버스 노선을 최적화하기 위해 정류장별 교통약자 수요를 파악하여 예측하는 모델을 구현했는데요. 독립변수가 많은 만큼 그에 적합한 모델 2가지를 선정해서 정확도가 높은 모델을 최종적으로 채택했습니다. 저희가 선정한 모델은 OLS(Ordinary least squares)와 XGBoost regressor인데 XGBoost regressor의 성능이 뛰어났기 때문에, 이번 포스트의 제목이 XGBoost regressor겠지요?? ㅎㅎㅎ 그럼 XGBoost regr..
Cluster analysis of Unsupervised Learning Unsupervised Learning(비지도 학습) Algorithm은 레이블이 없는 데이터(비정형 데이터)를 훈련하는 것을 말합니다. 그러므로 시스템의 아무런 도움 없이 학습해야 합니다. 부족한 정보를 통해 pattern을 찾고 grouping 할 수 있는 것이 있는지 찾아내는 것이 목표가 될 수 있고, 이것을 단독으로 사용하기보다는 비지도 학습으로 파악한 데이터의 숨겨진 특징을 원본 데이터 대신 지도 학습의 인풋 데이터로 활용해서 지도 학습의 성능을 더욱 끌어올리는 용도로 많이 활용합니다. 그렇다면 비정형 데이터라는 것은 무엇일까요?? 비정형 데이터란 인간이 만든 작업물에서 나온 데이터로 예를 들 수 있습니다. 사진, 레코드, 텍스트, 영상 등 데이터의 형태만 존재하고 데이터 자체에 어떤 설명이 없..
ARIMA model for time series forecasting(시계열 분석) 이번 포스트에서는 제가 최근에 진행했던 프로젝트에서 사용했던 시계열 데이터 분석 모형인 ARIMA를 정리해보겠습니다. ARIMA를 간단히 정의하면, 과거의 시계열 데이터를 가지고 예측하는 모델이며, 두 가지 변수(시계열, 종속 변수)를 가지고 모델을 훈련합니다. ARIMA를 훈련시키기 위해서는 몇 가지 조건이 필요한데 첫 번째로, data가 stationary(정상적인)해야 합니다. 이 말은 밑의 그래프처럼 선형적인 data는 적합하지 않다는 것을 의미합니다. 두 번째는 계절성(Seasonality)입니다. 규칙적으로 변동이 있는 가령, 아이스크림 판매는 여름에 더 높은 수익을 내는 것처럼 data에 계절성이 있다면 모델의 정확도를 더 높일 수 있습니다. Differencing 만약 두가지 조건을 만족시..
Linear Regression Linear regression is one of the approaches of regressions. It is used for prediction and input data X and target value y are linearly correlated. So it is called linear regression. For examples, prediction for real assets, forecasting the weather and revenue of movies are predicted by linear regression. So after we make a problem, we basically need to create a linear model by adding weights and ..
Supervised Learning Basically, supervised learning can be separated by classification and regression. Nowadays, supervised learning is a key thing many problems can be solved by. but it still needs tons of data so that can get ready. meaning need tons of data is supervised learning learns by data to solve the problem. so that is named by 'supervised'. We normally split data into training, test and validation. Every..