반응형

앙상블(ensemble)모형이란 주어진 데이터를 이용하여 여러 개의 서로 다른 예측 모형을 생성한 후, 이러한 예측 모형의 예측 결과를 종합하여 하나의 최종 예측결과를 도출해 내는 방법을 말한다. 목표변수의 형태에 따라 분류분석에도 사용 가능하고, 회귀분석에도 사용 가능하다. 분류분석에 사용한다면 분류앙상블, 회귀분석에 사용한다면 회귀앙상블이라 부를 수 있다. 현실적으로 앙상블 모형은 대부분 분류모형에서 사용되고 있는 실정이다. 이유는 데이터마이닝의 영역에서 더 자주 필요로 하는 모형이 분류모형이기 때문이라고 추측된다.

 

데이터를 이용하여 생성해 낸 한 분류모형의 결과를 분류기(classifier)라 하자. 예측집단을 종합하는 방법으로는 주도 다수결 방식이 사용되고 있다. 다수결 방식에 따라 아래와 같이 구분할 수 있다.

단순 다수결 방식: 만약 예측치 중에서 6개의 분류기가 1이라고 예측하고, 5개의 분류기가 0이라고 예측했다면, 다수결 방식에 의해서 이 관찰치는 1이라고 최종 결론을 내린다. 배깅, 랜덤포레스트 방법이 단순 다수결 방식을 사용한다.

가중 다수결 방식: 각 분류기마다 가중치인 wi를 고려해야 한다. wi는 각 분류기 오류율의 역수 개념이다. 성능이 우수한 분류기에 가중치를 더 부여하는 것이다. 부스팅 방법이 가중다수결 방식을 사용한다.

 

앙상블 모형의 종류에 따른 구분은 다음과 같다.

배깅 방법: 배깅(bagging) 방법은 Breiman(1996)에 의해 개발된 분류 앙상블 방법이다. Bagging bootstrap aggregating의 약어로 훈련 데이터로부터 부트스트랩 데이터를 B번 생성하여 부트스트랩 데이터마다 분류기를 생성한 후 그 예측결과를 앙상블하는 방법이다. 배깅 방법은 불안정한 분류방법의 예측력을 획기적으로 향상시킨다고 알려져 있다. 분류나무 중에서 가지치기를 사용하지 않은 최대나무가 더 불안정한 불류방법이기 때문에 그 효과가 더욱 좋다.

부스팅 방법: 부스팅(boosting) 방법은 Freund and Schapire(1997)에 의해 개발된 분류 앙상블 방법이다. 부스팅에 사용되는 분류기는 오분류율을 랜덤하게 예측하는 것보다 조금이라도 좋은 예측모형이기만 하면 효과가 있다고 알려져 있다. 이는 예측력이 약한 분류 모형을 결합하여 강한 예측모형을 만드는 과정으로, 가장 많이 실행되는 알고리즘은 아다부스트(AdaBoost: adaptive boosing)방법이다. 그 방법으로는 두 가지 방식으로 수행할 수 있다.

 1) 가중치를 반영한 분류기 생성 방식

 2) 표본추출에 의한 분류기 생성방식

 

랜덤포레스트 방법: randor forest 방법은 부트스트랩을 이용한 데이터의 변화 및 나무모형 분할방법에 랜덤성을 가미하여 나무 모형이 배깅과 부스팅보다 훨씬 더 다양해지도록 유도하는 아이디어를 가지고 있고, 더 정확한 예측력을 가지고 있다고 알려져 있다. 이 방법은 Breiman(2001)이 고안한 방법으로, 입력변수의 개수가 많을 때 그 효과가 극대화된다.



아래 나무모형과 앙상블 모형을 비교한 table, 각 방법을 클릭하면 해당 글로 이동


 

분류나무모형

분류앙상블 모형

cart

배깅

부스팅

랜덤포레스트

오분류율

19.6%

3.7%

22.6%

0%

예측성능의 오분류율

26.3%

25.3%

25.3%

   25% 


 - 목표변수가 YES / NO 등 집단을 의미하는 범주형 의사결정나무 -> 분류나무모형 




 

회귀나무모형

회귀 앙상블 모형

cart

랜덤포레스트

평균오차제곱(MSE)

10.86

1.92

예측평균오차제곱합(PMSE)

13.95

4.11


 - 목표변수가 22.53, 50 등 연속형 변수인 의사결정나무 -> 회귀나무모형




출처: 데이터마이닝(장영재, 김현중, 조형준 공저)

반응형
Posted by 마르띤
,