# Machine Learning Study

[[Boosting]] 기법 이해
[[Xgboot]]를 이해하기 위해 필요한 개념들을 정리

{{tag>Machine Learning Study slideshare boosting bagging}}

요즘 [[kaggle]]에서 유명한 [[Xgboost]]가 뭘까?
[[Ensemble]]중 하나의 [[Boosting]]기법?
Ensemble 유형인 [[Bagging]]과 [[Boosting]] 차이는?
왜 Bagging이 low bias, high variance 모델인가?
Bias와 Variance 관계는?
Boosting 기법은 어떤게 있나?
Xgboost에서 사용하는 [[CART]] 알고리즘은?

## 1. Ensemble (앙상블) 이란?

여러 모델을 이용하여 데이터를 학습하고, 모든 모델의 예측결과를 평균하여 예측

### Why Ensembles?

- Error 최소화
  - 다양한 모델의 결과를 종합하여 전반적으로 오류를 줄여줌
- [[Overfitting]] 감소
  - 각 모델별로 [[bias]]가 존재함
  - 이렇게 다양한 bias를 종합하여 결과를 생성하게 되여, overfitting을 줄여줌
- Low Bias, High Variance
  - Variance를 줄이기 위한 기법

## 1. Bagging vs Boosting는 무엇이 다른가?

^  비교  ^  Bagging  ^  Boosting  ^
| 특징 | 병렬 앙상블 모델\\ (각 모델은 서로 독립적)| 연속 앙상블\\ (이전 모델의 오류를 고려)|
| 목적 | Variance 감소 | Bias 감소 |
| 적합한 상황 | 복잡한 모델\\ (High variance, Low bias) | Low variance, High bias 모델 |
| 대표 알고리즘 | Random Forest | Gradient Boosting,\\ AdaBoost |
| Sampling | Random Sampling | Random Sampling with weight on error |


## 출처

- https://www.slideshare.net/freepsw/boosting-bagging-vs-boosting