# Machine Learning Study [[Boosting]] 기법 이해 [[Xgboot]]를 이해하기 위해 필요한 개념들을 정리 {{tag>Machine Learning Study slideshare boosting bagging}} 요즘 [[kaggle]]에서 유명한 [[Xgboost]]가 뭘까? [[Ensemble]]중 하나의 [[Boosting]]기법? Ensemble 유형인 [[Bagging]]과 [[Boosting]] 차이는? 왜 Bagging이 low bias, high variance 모델인가? Bias와 Variance 관계는? Boosting 기법은 어떤게 있나? Xgboost에서 사용하는 [[CART]] 알고리즘은? ## 1. Ensemble (앙상블) 이란? 여러 모델을 이용하여 데이터를 학습하고, 모든 모델의 예측결과를 평균하여 예측 ### Why Ensembles? - Error 최소화 - 다양한 모델의 결과를 종합하여 전반적으로 오류를 줄여줌 - [[Overfitting]] 감소 - 각 모델별로 [[bias]]가 존재함 - 이렇게 다양한 bias를 종합하여 결과를 생성하게 되여, overfitting을 줄여줌 - Low Bias, High Variance - Variance를 줄이기 위한 기법 ## 1. Bagging vs Boosting는 무엇이 다른가? ^ 비교 ^ Bagging ^ Boosting ^ | 특징 | 병렬 앙상블 모델\\ (각 모델은 서로 독립적)| 연속 앙상블\\ (이전 모델의 오류를 고려)| | 목적 | Variance 감소 | Bias 감소 | | 적합한 상황 | 복잡한 모델\\ (High variance, Low bias) | Low variance, High bias 모델 | | 대표 알고리즘 | Random Forest | Gradient Boosting,\\ AdaBoost | | Sampling | Random Sampling | Random Sampling with weight on error | ## 출처 - https://www.slideshare.net/freepsw/boosting-bagging-vs-boosting