'importance' 태그의 글 목록

'importance'에 해당되는 글 2건

2016.11.09 제4장 앙상블 모형 - 분류앙상블모형 - 랜덤 포레스트
2016.11.02 제4장 앙상블 모형 - 회귀앙상블모형 - 랜덤포레스트 1

제4장 앙상블 모형 - 분류앙상블모형 - 랜덤 포레스트

KNOU/2 데이터마이닝 2016. 11. 9. 10:03

회귀앙상블 - 랜덤포레스트(링크)

분류앙상블 – 배깅, 부스팅, 랜덤 포레스트

1) 데이터 입력

> setwd('c:/Rwork')

> german=read.table('germandata.txt',header=T)

> german$numcredits = factor(german$numcredits)

> german$residence = factor(german$residence)

> german$residpeople = factor(german$residpeople)

2) 랜덤 포레스트 방법의 실행

> library(randomForest)

> rf.german<-randomForest(y~.,data=german,ntree=100,mytr=5,importance=T,na.action = na.omit)

> summary(rf.german)

Length Class Mode

call 7 -none- call

type 1 -none- character

predicted 1000 factor numeric

err.rate 300 -none- numeric

confusion 6 -none- numeric

votes 2000 matrix numeric

oob.times 1000 -none- numeric

classes 2 -none- character

importance 80 -none- numeric

importanceSD 60 -none- numeric

localImportance 0 -none- NULL

proximity 0 -none- NULL

ntree 1 -none- numeric

mtry 1 -none- numeric

forest 14 -none- list

y 1000 factor numeric

test 0 -none- NULL

inbag 0 -none- NULL

terms 3 terms call

함수 설명:

randomForest(y~.,data=german,ntree=100,mytr=5,importance=T,na.action = na.omit ntree는 랜덤포레스트 방법에서 생성하게 될 분류기의 개수 B이다. 100개의 분류기는 분류나무를 이용하여 생성되도록 하였다. mtry는 중간노드마다 랜덤하게 선택되는 변수의 개수를 의미한다. 5개의 입력변수를 중간노드마다 모두 선택하고 이 중에서 분할점이 탐색되도록 하였다. importance는 변수의 중요도를 계산하는 옵션이고, na.action은 결측치를 처리하는 방법에 대한 사항이다. 변수의 중요도를 계산하게 하고, 결측치는 필요한 경우에만 삭제되도락 하였다.

2) 랜덤 포레스트 방법의 실행 – 변수 중요도 보기

> names(rf.german)

[1] "call" "type" "predicted" "err.rate" "confusion"

[6] "votes" "oob.times" "classes" "importance" "importanceSD"

[11] "localImportance" "proximity" "ntree" "mtry" "forest"

[16] "y" "test" "inbag" "terms"

> head(rf.german$predicted,10) #데이터의 예측집단을 출력

1 2 3 4 5 6 7 8 9 10

good bad good bad bad good good good good bad

Levels: bad good

> importance(rf.german)

bad good MeanDecreaseAccuracy MeanDecreaseGini

check 13.14268724 9.63208341 15.1106884 44.838547

duration 3.33563217 8.10482760 8.6281030 41.273512

history 3.87863720 4.50449203 5.8685013 25.731461

purpose 2.67025503 3.09871408 4.1078354 35.651165

credit 2.44312087 4.16670498 4.8800356 52.641745

savings 7.48182326 2.84190645 6.1879918 21.705909

employment 1.91049595 2.70568977 3.2416484 23.910509

installment 0.02100147 3.49542966 3.0522029 15.714499

personal 2.10802207 1.83819513 3.0602966 15.365475

debtors -0.17277289 4.39384503 3.8963219 6.718969

residence 0.74571096 0.90284661 1.1155901 17.932937

property 2.16016716 3.85454658 4.7010080 18.803008

age 2.69637542 4.35170316 5.4753585 41.451103

others 0.31569112 3.60499256 3.3679530 11.399935

housing 2.70314243 2.06074416 3.0737900 9.596539

numcredits -0.24996827 0.95259106 0.6502566 7.944861

job 1.53070574 1.18486660 2.1420488 12.054190

residpeople 0.88657814 -0.43166449 0.1370845 4.234831

telephone 1.46824003 -0.24200291 0.6110284 6.427048

foreign 1.26297478 -0.05431566 0.5733125 1.519832

> importance(rf.german,type=1)

MeanDecreaseAccuracy

check 15.1106884

duration 8.6281030

history 5.8685013

purpose 4.1078354

credit 4.8800356

savings 6.1879918

employment 3.2416484

installment 3.0522029

personal 3.0602966

debtors 3.8963219

residence 1.1155901

property 4.7010080

age 5.4753585

others 3.3679530

housing 3.0737900

numcredits 0.6502566

job 2.1420488

residpeople 0.1370845

telephone 0.6110284

foreign 0.5733125

결과 해석: check가 가장 중요하고 duration이 두번째로 중요

> order(importance(rf.german)[,'MeanDecreaseAccuracy'],decreasing = T)

[1] 1 2 6 3 13 5 12 4 10 14 7 15 9 8 17 11 16 19 20 18

> which.max(importance(rf.german)[,'MeanDecreaseAccuracy'])

check

> importance(rf.german)[which.max(importance(rf.german)[,'MeanDecreaseAccuracy']),]

bad good MeanDecreaseAccuracy MeanDecreaseGini

13.142687 9.632083 15.110688 44.838547

> rf.german$importance

bad good MeanDecreaseAccuracy MeanDecreaseGini

check 5.728619e-02 2.488337e-02 3.461467e-02 44.838547

duration 1.262784e-02 2.059686e-02 1.820397e-02 41.273512

history 1.165482e-02 8.234252e-03 9.100115e-03 25.731461

purpose 1.001589e-02 5.877403e-03 7.125436e-03 35.651165

credit 8.957835e-03 9.469900e-03 9.342178e-03 52.641745

savings 1.873739e-02 4.572813e-03 8.795598e-03 21.705909

employment 5.377379e-03 4.391391e-03 4.647218e-03 23.910509

installment 5.083834e-05 4.492258e-03 3.109720e-03 15.714499

personal 4.903039e-03 2.481005e-03 3.188303e-03 15.365475

debtors -1.380717e-04 3.198633e-03 2.202015e-03 6.718969

residence 1.833243e-03 1.342976e-03 1.400876e-03 17.932937

property 6.357328e-03 5.871030e-03 6.069060e-03 18.803008

age 1.026633e-02 8.969565e-03 9.239623e-03 41.451103

others 6.321219e-04 4.940365e-03 3.562374e-03 11.399935

housing 5.086080e-03 2.740150e-03 3.358222e-03 9.596539

numcredits -3.793953e-04 7.653351e-04 4.256327e-04 7.944861

job 2.803065e-03 1.422938e-03 1.912685e-03 12.054190

residpeople 9.171770e-04 -2.801992e-04 7.286163e-05 4.234831

telephone 2.173474e-03 -2.108124e-04 4.743466e-04 6.427048

foreign 5.935867e-04 -1.538455e-05 1.547421e-04 1.519832

추가:

rf.german$importance #이건 importance(rf.german) 의 결과와 어떻게 다른지 좀 더 공부하자

3) 분류예측치를 구하고 정확도 평가

> pred.rf.german<-predict(rf.german,newdata=german)

> head(pred.rf.german,10)

1 2 3 4 5 6 7 8 9 10

good bad good good bad good good good good bad

Levels: bad good

> tab=table(german$y,pred.rf.german,dnn=c("Actual","Predicted"))

> tab

Predicted

Actual bad good

bad 300 0

good 0 700

> addmargins(tab)

Predicted

Actual bad good Sum

bad 300 0 300

good 0 700 700

Sum 300 700 1000

> 1-sum(diag(tab)/sum(tab))

[1] 0

결과 해석: 기존 cart 분류나무 모형 오분류율은 19.6%, 배깅은 3.7%, 부스팅은 22.6%인 반면

랜덤 포레스트는 오분류율이 0%로 기존 그 어떠한 모형보다 대단히 우수한 결과를 보임을 알 수 있다

(분류나무 cart 모형 바로가기) / (분류앙상블 모형 – 배깅 바로가기) / (분류앙상블 모형 – 부스팅 바로가기)

4) 몇개의 분류기가 적당할까?

> plot(rf.german,'l')

결과 해석: x축은 분류기, y축은 OOB 오분류율을 의미 out of bag의 약자로 부트스트랩에 포함되지 못한 데이터를 의미. 결국 oob데이터는 검증데이터의 역할과 비슷. 가장 아래선은 목표변수 중 good에 대한 오분율, 가장 위쪽 선은 bad에 대한 오분율. 가운데는 전체 오분류율. 그림에 따르면 분류기 개수가 80개이상이면 안정적인 형태로 보인다

5) 훈련 데이터와 검증데이터로 분할하여 랜덤포레스트 방법을 평가해 보자.

> set.seed(1234)

> i=sample(1:nrow(german),round(nrow(german)*0.7)) #70% for training 훈련 data, 30% test 검증 데이

> german.train = german[i,]

> german.test = german[-i,]

> rf.train.german<-randomForest(y~.,data=german.train,ntree=100,mtry=5,importance=T,na.action = na.omit)

> pred.rf.train.german<-predict(rf.train.german,newdata=german.test)

> tab.train = table(german.test$y,pred.rf.train.german,dnn=c('Actual','Predicted'))

> tab.train

Predicted

Actual bad good

bad 39 60

good 15 186

> addmargins(tab.train)

Predicted

Actual bad good Sum

bad 39 60 99

good 15 186 201

Sum 54 246 300

> 1-sum(diag(tab.train) / sum(tab.train)) #오분류율이 25%로 어느정도 향상

[1] 0.25

결과 해석: 검증데이터에 대한 오분류율은 기존 cart 분류 나무는 26.3%, 배깅 역시 26.3%, 부스팅은 25.3%. 랜덤포레스트는 25%로, 조금 향상 되었음.

(분류나무 cart 모형 바로가기) / (분류앙상블 모형 – 배깅 바로가기) / (분류앙상블 모형 – 부스팅 바로가기)

출처: 데이터마이닝(장영재, 김현중, 조형준 공저)

'KNOU > 2 데이터마이닝' 카테고리의 다른 글

제5장 신경망모형 - 분류 (5)	2016.12.20
제5장 신경망모형 - 회귀 (0)	2016.11.14
제4장 앙상블 모형 - 분류앙상블모형 - 부스팅 (0)	2016.11.07
제4장 앙상블 모형 - 분류앙상블모형 - 배깅 (0)	2016.11.03
제4장 앙상블 모형 - 회귀앙상블모형 - 랜덤포레스트 (1)	2016.11.02

Posted by 마르띤

제4장 앙상블 모형 - 회귀앙상블모형 - 랜덤포레스트

KNOU/2 데이터마이닝 2016. 11. 2. 10:05

보스턴 하우징 데이터 – 랜덤포레스트 방법의 회귀앙상블 모형

1) 데이터 읽기

> Boston$chas=factor(Boston$chas)

> Boston$rad=factor(Boston$rad)

> str(Boston)

'data.frame': 506 obs. of 14 variables:

$ crim : num 0.00632 0.02731 0.02729 0.03237 0.06905 ...

$ zn : num 18 0 0 0 0 0 12.5 12.5 12.5 12.5 ...

$ indus : num 2.31 7.07 7.07 2.18 2.18 2.18 7.87 7.87 7.87 7.87 ...

$ chas : Factor w/ 2 levels "0","1": 1 1 1 1 1 1 1 1 1 1 ...

$ nox : num 0.538 0.469 0.469 0.458 0.458 0.458 0.524 0.524 0.524 0.524 ...

$ rm : num 6.58 6.42 7.18 7 7.15 ...

$ age : num 65.2 78.9 61.1 45.8 54.2 58.7 66.6 96.1 100 85.9 ...

$ dis : num 4.09 4.97 4.97 6.06 6.06 ...

$ rad : Factor w/ 9 levels "1","2","3","4",..: 1 2 2 3 3 3 5 5 5 5 ...

$ tax : num 296 242 242 222 222 222 311 311 311 311 ...

$ ptratio: num 15.3 17.8 17.8 18.7 18.7 18.7 15.2 15.2 15.2 15.2 ...

$ black : num 397 397 393 395 397 ...

$ lstat : num 4.98 9.14 4.03 2.94 5.33 ...

$ medv : num 24 21.6 34.7 33.4 36.2 28.7 22.9 27.1 16.5 18.9 ...

Factor 함수를 이용하여 범주형으로 변경하고, medv 변수를 목표변수로 다른 변수를 입력변수로 사용한다.

2) 랜덤포레스트 방법의 실행

>library(randomForest)

> rf.boston<-randomForest(medv~.,data=Boston,ntree=100,mtry=5,importance=T,na.action=na.omit)

> rf.boston

Call:

randomForest(formula = medv ~ ., data = Boston, ntree = 100, mtry = 5, importance = T, na.action = na.omit)

Type of random forest: regression

Number of trees: 100

No. of variables tried at each split: 5

Mean of squared residuals: 9.743395

% Var explained: 88.46

> summary(rf.boston)

Length Class Mode

call 7 -none- call

type 1 -none- character

predicted 506 -none- numeric

mse 100 -none- numeric

rsq 100 -none- numeric

oob.times 506 -none- numeric

importance 26 -none- numeric

importanceSD 13 -none- numeric

localImportance 0 -none- NULL

proximity 0 -none- NULL

ntree 1 -none- numeric

mtry 1 -none- numeric

forest 11 -none- list

coefs 0 -none- NULL

y 506 -none- numeric

test 0 -none- NULL

inbag 0 -none- NULL

terms 3 terms call

함수 설명

ntree=100, 분류기 개수. 디폴트는 500개

mtry=5, 중간노드마다 랜덤하게 선택되는 변수들의 개수. 디폴트는 분류나무의 경우 sqrt(p), 회귀나무의 경우 p/3

importance=T, 변수의 중요도 계산, 디폴트는 F

na.action=na.omit, 결측치를 처리하는 방법, 변수의 중요도를 계산하게 하고, 결측치는 필요한 경우에만 삭제.

names()함수를 통해 rf.boston에 저장된 오브젝트의 리스트를 불러내어, $predicted를 이용하여 훈련 데이터의 예측 집단을 출력할 수 있다.

> names(rf.boston)

[1] "call" "type" "predicted" "mse" "rsq"

[6] "oob.times" "importance" "importanceSD" "localImportance" "proximity"

[11] "ntree" "mtry" "forest" "coefs" "y"

[16] "test" "inbag" "terms"

> head(rf.boston$predicted,30)

1 2 3 4 5 6 7 8 9 10

28.25382 22.55963 34.14192 35.45333 34.06798 26.81151 21.01950 16.78839 17.80599 19.23591

11 12 13 14 15 16 17 18 19 20

21.02440 21.23466 21.80889 20.05162 19.30557 20.21721 21.61349 18.46000 18.14724 19.96174

21 22 23 24 25 26 27 28 29 30

14.10136 18.55984 16.05801 15.04825 16.70996 15.70548 17.84748 14.82048 18.88633 20.64939

importance()함수를 통해 계산된 입력변수의 중요도를 알 수 있다.

> importance(rf.boston,type=1)

%IncMSE

crim 8.325232

zn 2.061869

indus 5.130483

chas 1.030915

nox 9.211906

rm 17.090802

age 5.229782

dis 8.322716

rad 5.342500

tax 4.604745

ptratio 7.102056

black 5.292651

lstat 14.652271

결과를 보면 rm변수과 lstat 변수의 중요도가 가장 높음을 알 수 있다.

함수 설명

type=1,은 정분류율의 평균감소값, 2는 불순도의 평균감소값을 이용하여 계산

목표변수의 적합값을 구하고 평가하기 위해 평균오차제곱합(mse)를 계산.

> names(Boston)

[1] "crim" "zn" "indus" "chas" "nox" "rm" "age" "dis" "rad"

[10] "tax" "ptratio" "black" "lstat" "medv"

> Boston$medv.hat = predict(rf.boston,newdata=Boston)

> mean((Boston$medv-Boston$medv.hat)^2) #mean square error(mse)

[1] 1.915207

기존 선형회귀 한 회귀 분류 나무 모형 결과의 평균오차제곱합 mean((Boston$medv-Boston$medv.hat)^2) = 10.8643 대비 랜덤포레스트의 평균오차제곱합이 1.915207로 설명력이 매우 증가되었음을 알 수 있다. 랜덤포레스트의 경우 부트스트랩을 이용하기 때문에 확률임의추출에 의한 변동성이 있을 수 있다. 따라서 모델링을 할 때 마다 결과가 다르기 때문에, 랜덤포레스트를 수차례 반복 시행하고 예측결과의 평균값을 취하는 경우도 있다.

(기존 보스턴 하우징 데이터 회귀나무모형 사례 분석 링크 바로가기)

랜덤 포레스트 회귀앙상블의 적합값과 실제값의 일치도를 보자. 예측일치도가 우수함을 알 수 있다.

> plot(Boston$medv,Boston$medv.hat,xlab='Observed Values',ylab='Fitted Values')

> abline(0,1)

기존 분류 회귀의 나무모형의 적합값과 실제값의 일치도와 비교해봐도 매우 우수함을 알 수 있다.

이 의사결정 나무를 활용하여 30% 검증 데이터에 적용시켜서 분류예측치를 구해보자. 그리고 그 예측치를 구해보자.

> set.seed(1234)

> nrow(Boston)

[1] 506

> i=sample(1:nrow(Boston),round(nrow(Boston)*0.7))

> Boston.train = Boston[i,] #70% for training data 훈련 데이터

> Boston.test = Boston[-i,] #30% for test data 검증 데이터

> rf.train.boston<-randomForest(medv~.,data=Boston.train,ntree=100,importance=T,na.action=na.omit)

#obtain the predicted values

> medv.hat.test<-predict(rf.train.boston,newdata=Boston.test)

> mean((Boston.test$medv-medv.hat.test)^2) #predicted mean square error

[1] 4.114596

검증 데이터에 대한 평균오차제곱합 mse는 4.11로 계산되었다. 기존 회귀 분류 나무모형 의 검증 데이터 오분류율 13.95258와 비교해보면 상당히 향상된 결과임을 알 수 있다.

(기존 보스턴 하우징 데이터 회귀나무모형 사례 분석 링크 바로가기)

출처: 데이터마이닝(장영재, 김현중, 조형준 공저)

'KNOU > 2 데이터마이닝' 카테고리의 다른 글

제4장 앙상블 모형 - 분류앙상블모형 - 부스팅 (0)	2016.11.07
제4장 앙상블 모형 - 분류앙상블모형 - 배깅 (0)	2016.11.03
제4장 앙상블 모형 (0)	2016.11.02
제3장 나무모형 - 회귀나무모형 (0)	2016.10.26
제3장 나무모형 - 분류나무모형 (4)	2016.10.18

Posted by 마르띤

이전 1 다음

데이터마이너를 꿈꾸며

'importance'에 해당되는 글 2건

제4장 앙상블 모형 - 분류앙상블모형 - 랜덤 포레스트

'KNOU > 2 데이터마이닝' 카테고리의 다른 글

제4장 앙상블 모형 - 회귀앙상블모형 - 랜덤포레스트

'KNOU > 2 데이터마이닝' 카테고리의 다른 글

링크

카테고리

최근에 올라온 글

최근에 받은 트랙백

글 보관함

티스토리툴바