'로지스틱회귀'에 해당되는 글 1건

  1. 2016.09.14 제2장 회귀모형 - 선형회귀, 로지스틱회귀
반응형

목표변수가 연속형인 경우 -> 선형 회귀모델, ex) 광고비 투입 대비 매출액

목표변수가 두 개의 범주를 가진 이항형인 경우 -> 로지스틱 회귀모형, ex) 좋다1, 나쁘다0


 

2.1 선형회귀모형(linear regression model)

① 모형의 정의


Y= β0 + β1X1i + β2X2i +…..+ βpXpi + εi,   i = 1,…, n


- β0, β1, β2, …. Βp 를 회귀 모수(regression parameters) 또는 회귀 계수(regression coefficients)로서 알려지지 않는 상수이다.

εi Yi의 근사에서 오차(error)

 

회귀 모수의 추정

오차 εi= Y - β0 - β1X1i - β2X2i -…..- βpXpi


제곱합을 최소화하는 추정값을 이용한 최소제곱회귀직선(least square regression line) 다음과 같다.



 

회귀 계수의 해석

회귀계수 βj 다른 입력 변수들이 일정할 j번째 입력변수가 단위 변동할 대응하는 Y 변동 양으로 해석. , βj 다른 입력변수를 보정한 후에 Y 대한 Xj 기여도. 회귀계수 βj 양수이면 Xj 증가할 Y 증가하고, 반대로 βj 음수이면, Xj 증가할 Y 감소함을 의미한다.

 


④ 입력 변수의 중요도


Tj =

Beta hatj

SE(Beta hatj)



 


t값의 절대 값이 클수록 영향력이 크다고 할 수 있다. P-값이 유의수준 (보통 0.05)보다 작을 때


귀무가설 H0 : β1 = 0

대립가설 H1 : β1 0

 

귀무가설을 기각하여, Xj의 영향력이 있다고 말할 수 있다.

 

⑤ 모형의 적합도 – F

모형의 상수항 β0을 제외한 모든 회귀계수가 0인지 아닌지를 검정하는 측도를 F-값이라 한다.

F-값은 회귀직선에 의해 평균적으로 설명할 수 있는 부분(MSR: mean squared regression)을 설명할 수 없는 부분(MSE: meas squared erroe)으로 나눈 값.

F =

MSR

=

SSR/p

MSE

SSE/(n-p-1)

 

F-값이 크면 p개 입력변수 중에 최소한 하나는 유의하다(회귀계수가 0이 아니다)라는 뜻이고, F-값이 작아서 p-(보통 0.05) 보다 크면 모든 입력변수가 유의하지 않아서 회귀선이 쓸모가 없다.

 

⑤ 모형의 적합도 결정계수 R2

모형의 적합도(goodness-of-fit)를 결정계수(coefficient of determination) R2으로 측정할 수 있다.

결정계수 R2는 설명할 수 있는 부분의 총합을 변동의 총합으로 나눈 값으로 0 1사의 값을 지닌다.

R2=

SSR

= 1 -

SSE

SST

SST

 

R2 1에 가까울수록 모형이 데이터에 더 잘 적합되었다(fitted), 또는 회귀직선이 설명력이 높다라고 말할 수 있다.

 

다만, 모형에 포함된 변수의 수(p)가 증가하면 할수록 R2은 증가하므로 변수의 수가 다른 모형을 비교할 때는 수정된(adjusted) R2를 사용

Ra2=

Adjusted R2

= 1 -

n-1

n-p-1

 

Ra2은 변수의 수가 증가한다고 항상 증가하지는 않는다.

 

⑤ 모형의 적합도 – AIC

입력변수의 수가 다른 모형을 비교 평가하는 기준으로 AIC(Akaike information criterion)을 사용한다.


AIC = nlog(SSE/n) + 2p

 

SSE는 오차제곱합으로 작을수록 모형이 적합이 잘 되었다고 할 수 있다. 입력변수의 수가 증가할수록 SSE는 감소하지만, 벌점 2p를 더한 AIC는 항상 감소하지는 않는다. 여러 후보 모형 중에서 AIC가 가장 작은 모형을 선택한다.

 

모형을 이용한 예측

주어진 데이터에 기반하여 회귀식 Ŷ을 얻었다고 하자. 임의의 객체 i*에 대해 관측한 입력변수의 값 x1i*, x2i*, …, xpi*를 그 회귀식에 대입하여 목표변수의 예측치 Ŷix를 얻을 수 있다.


 

⑦ 예측력

목표변수가 연속형인 경우에 모형의 예측력 측도로서 MSE(mean squared error)를 주로 사용. 시각적으로 관측치(yi)와 예측치 Ŷi의 차이를 확인하기 위해서는 이들을 가로축 및 세로축에 놓고 그린 산점도가 45도 대각선을 중심으로 모여 있으면 예측력이 좋다고 할 수 있다.


 

2.2 로지스틱 회귀모형(logistic regression model)

목표변수가 두 개의 범주를 가진 이항형인 경우, 가령 목표변수의 두 범주 값 신용이 좋다 1, ‘신용이 나쁘다 0인 경우.

① 모형의 정의

n의 객체(subject) 중에 i번째 객체에 대한 두 개의 범주(성공 또는 실패)를 가지는 이항형 목표변수 값을 Yi, 입력변수들의 값을 X1i, X2i, …, Xpi라고 하자. 이항형 목표변수는 이항분포(binomial distribution)를 따른다. 두 개의 범주값을 1 0으로 표시하고, 목표변수가 성공’ 1을 가질 확률을 πi = pr( Yi = 1)이라고 하자. 로지스틱 회귀모형을 다음과 같이 나타낸다.

 

πi =

exp(0 + β1X1i + β2X2i +…..+ βpXpi)

, i = 1,..,n

1 + exp(0 + β1X1i + β2X2i +…..+ βpXpi)

 

, X1i, X2i, …, Xpi 입력변수의 값이고, 이항형 목표변수는 이항분포(binomial distribution)을 따른다고 가정. 위의 식에서 목표변수가 범주형에서 연속형 변수로 바뀌지만, πi 0~1사이의 값만을 가짐. πi 1에 가까워질수록 입력변수의 값은 ∞로 증가, 0에 가까워질수록 0으로 수렴. 따라서 로지스틱 회귀모형은 다음과 같이 변환하여 표시할 수 있음.

log(

πi

) =

exp(0 + β1X1i + β2X2i +…..+ βpXpi)

, i = 1,..,n

1- πi

 

- β0, β1, β2, …. Βp 를 회귀 모수(regression parameters) 또는 회귀 계수(regression coefficients)로서 알려지지 않는 상수이다.


성공확률 πi와 입력변수 관계는 로지스틱 반응 함수로 표현할 수 있다. 입력변수가 증가함에 따라 초기에는 천천히 증가하다가 증가속도가 점차 빨라지고 확률 1/2 이후에는 다시 증가속도가 줄어드는 성장곡선 (growth curve) 형태이다(좌측 도형). 성공 확률과 실패 확률의 비를 오즈비(odds ratio)라고 하고 오즈비에 로그(log)를 취한 것을 로짓변화(logit transformation)이라고 부른다. 입력변수와 로짓의 관계는 직선이고, πi 0~1의 값만 취하는 반면, 로짓변화는 -4, 6 등 다양한 값을 가진다.

 

회귀 모수의 추정

회귀모수는 최대우도추정법(MLE: maximum likelihood estimation method)에 이해 추정. 데이터의 확률함수를 모수β의 함수로 취급한 것을 우도함수(likelihood function) L(β)라고 하고, 이 우도함수가 최대가 될 때 모수의 추정치를 최대우도추정치(MLE)라고 한다. 적합된 로지스틱 회귀식(logistic regression line)은 다음과 같다.



 

회귀계수의 해석

회귀계수 βj는 다른 입력변수들을 보정한 후 성공(Y=1)의 로그오즈(log odds = log(π/(1-π))에 미치는 Xj의 효과. 다른 입력 변수가 일정할 때, exp(βj) j번째 입력변수 Xj가 한 단위 변동할 때 오즈에 미치는 기여도. 회귀계수 βj 양수이면 Xj 증가할 성공확률 π 로짓 log(π/(1-π)는 증가하고, 반대로 βj 음수이면 Xj 증가할 이들은 감소한다.

 

④ 변수의 중요도

선형회귀모형에서와 유사하게 로지스틱 회귀모형에서는 변수의 중요도는 z값으로 측정할 수 있다.



⑤ 모형의 적합도

모형의 적합도의 측도로서 이탈도(deviance)를 사용할 수 있다. 이탈도란 어떤 모형 M의 최대로그 우도(maximized log-likelihood) log(LM)에서 포화모형(saturated model) S의 최대로그우도 log(LS)를 뺀 것에 -2를 곱한 값이다.


이탈도 = -2[log(LM)-log(LS)]

 

포화모형은 각 관측에 모수 하나씩을 사용하여 완벽한 모형을 의미하며, 이탈도가 클 경우에는 그 모형은 적합하지 않다고 한다. 데이터를 모형에 적합하여 얻은 이탈도에 대응하는 p-(보통 > 0.05)이 클 때 우리는 그 모형 M이 의미있다고 한다. 입력변수의 수가 다른 모형을 비교 평가하는 기준으로 AIC(Akaike Information Criterion)를 종종 사용한다. LM은 모형 M에 대한 우도함수의 최대값, p는 모수의 수이다.

AIC = -2log(LM) + 2P

 

AIC는 입력변수 또는 모수의 수가 증가한다고 항상 작아지지는 않으므로, 여러 후보 모형들 중에서 가장 작은 AIC를 가지는 모형을 선택한다.

 

⑥ 모형을 이용한 예측

임의의 객체 i*에 대해 관측한 입력변수의 값 x1i*,x2i*,…,xpi*를 그 로지스틱 회귀식에 대입하여 성공확률 πi* = Pr(Yi* =1)의 예측치를 얻을 수 있다.


예측치가 크면 1, 작으면 0으로 분류한다. 크고 작음을 분류하는 임계치(π0)는 보통 0.5~0.7을 사용하지만, 적영 분야에 따라 달리 결정할 수 있다. 기존 고객 데이터로 회귀계수를 추정하여 로지스틱 회귀식을 얻은 후, 수집한 새로운 고객의 입력변수값을 로지스틱 회귀식에 대입하여 새로운 고객의 성공확률을 예측한다.

 

⑦ 예측력 정오분류표

목표변수가 이항형(신용도가 좋으면 1, 나쁘면 0)인 경우에, 정오분류표를 만들어 예측력을 평가


 

예측범주 Ŷ

합계

1

0

실제범주 Y

1

n11

n10

n1+

0

n01

n00

n0+

합계

n+1

n+0

n

 

- 민감도(Sensitivity): Pr(Ŷ = 1 | Y =1) = n11/n1+

- 특이도(Specificity): Pr(Ŷ = 0 | Y =0) = n00/n0+

- 예측정확도(Prediction Accuracy): Pr(Ŷ =1 | Y =1) + Pr(Ŷ = 0 | Y =0) = (n11+n00)/n

- 오분류율(Misclassification Rate): Pr(Ŷ1 | Y =1) + Pr(Ŷ0 | Y =0) = (n10+n01)/n

 

민감도: 실제 양성(Y=1)일 때, 양성으로 예측할 확률(Ŷ = 1)

특이도: 실제 음성(Y=0)일 때 음성으로 예측할 확률(Ŷ = 0)

예측정확도: 실제 양성인데 양성으로, 음성일 때 음성으로 제대로 예측할 확률로 민감도와 특이도의 가중평균

오분류율: 양성인데 음성으로, 음성일 때 양성으로 잘못 예측할 확률

 


⑦ 예측력 – ROC 곡선

여러 가능한 임계치에 대해 ‘1-특이도(Specificity)’를 가로축에, 민감도를 세로축에 놓고 그린 그래프를 ROC(Receiver Operating Characteristic)곡선이라고 한다. 민감도와 특이도가 높을수록 예측력이 좋다고 할 수 있기 때문에 ROC 곡선이 좌상단에 가까울수록 ROC 곡선 아래 면적인 AUC(Area Under the ROC curve)가 커지고, AUC가 커질수록 예측력이 좋다고 할 수 있다.

2.3 범주형 입력변수 처리

입력변수가 범주형일 경우에는 가변수(dummy variable)로 변환하여 처리한다. 예를 들어, 어떤 입력변수 X 3개의 범주(a,b,c)를 가진다고 하자. 그러면 두 개의 가변수를 다음과 같이 새롭게 정의한다.

 

X’= 1, X=a  or  0, Xa

X”= 1, X=b  or  0, Xb

 

X가 범주 a를 가지는 경우, X’=1, X”=0, X가 범주 b를 가지는 경우 X’=0, X”=1, X가 범주 c를 가지는 경우 X’=0, X”=0. 따라서 X가 범주를 L개 가지는 경우 L-1개의 가변수를 새롭게 생성한다.

 


2.4 모형 구축을 위한 변수 선택

후진소거법(backward elimination): 모든 변수를 포함시킨 모형부터 시작하여 가장 유의하지 않은 변수를 하나씩 제거

전진선택법(forward selection): 상수항만 가진 모형부터 시작하여 가장 유의한 변수를 하나씩 포함시켜 포함되지 않고 남은 변수가 모두 유의하지 않을 때까지 추가

단계적 선택법(stepwise selection): 전진선택법처럼 상수항부터 시작하여 가장 유의한 변수를 하나씩 모형에 포함시킨다. 하지만 어떤 변수가 포함된 이후에 기존에 포함된 변수 중에 유의하지 않은 변수를 제거. 전진선택법 + 후진소거법

반응형
Posted by 마르띤
,