목표변수가 연속형인 경우 -> 선형 회귀모델, ex) 광고비 투입 대비 매출액
목표변수가 두 개의 범주를 가진 이항형인 경우 -> 로지스틱 회귀모형, ex) 좋다1, 나쁘다0
2.1 선형회귀모형(linear regression model)
① 모형의 정의
Y= β0 + β1X1i + β2X2i +…..+ βpXpi + εi, i = 1,…, n
- β0, β1, β2, …. Βp 를 회귀 모수(regression parameters) 또는 회귀 계수(regression coefficients)로서 알려지지 않는 상수이다.
- εi는 Yi의 근사에서 오차(error)
② 회귀 모수의 추정
오차 εi= Y - β0 - β1X1i - β2X2i -…..- βpXpi
의 제곱합을 최소화하는 추정값을 이용한 최소제곱회귀직선(least square regression line)은 다음과 같다.
③ 회귀 계수의 해석
회귀계수 βj 다른 입력 변수들이 일정할 때 j번째 입력변수가 한 단위 변동할 때 대응하는 Y의 변동 양으로 해석. 즉, βj는 다른 입력변수를 보정한 후에 Y에 대한 Xj의 기여도. 회귀계수 βj가 양수이면 Xj가 증가할 때 Y도 증가하고, 반대로 βj가 음수이면, Xj가 증가할 때 Y는 감소함을 의미한다.
④ 입력 변수의 중요도
Tj = |
Beta hatj |
SE(Beta hatj) |
t값의 절대 값이 클수록 영향력이 크다고 할 수 있다. P-값이 유의수준 (보통 0.05)보다 작을 때
귀무가설 H0 : β1 = 0
대립가설 H1 : β1 ≠ 0
귀무가설을 기각하여, Xj의 영향력이 있다고 말할 수 있다.
⑤ 모형의 적합도 – F값
모형의 상수항 β0을 제외한 모든 회귀계수가 0인지 아닌지를 검정하는 측도를 F-값이라 한다.
F-값은 회귀직선에 의해 평균적으로 설명할 수 있는 부분(MSR: mean squared regression)을 설명할 수 없는 부분(MSE: meas squared erroe)으로 나눈 값.
F = |
MSR |
= |
SSR/p |
MSE |
SSE/(n-p-1) |
F-값이 크면 p개 입력변수 중에 최소한 하나는 유의하다(회귀계수가 0이 아니다)라는 뜻이고, F-값이 작아서 p-값(보통 0.05) 보다 크면 모든 입력변수가 유의하지 않아서 회귀선이 쓸모가 없다.
⑤ 모형의 적합도 – 결정계수 R2
모형의 적합도(goodness-of-fit)를 결정계수(coefficient of determination) R2으로 측정할 수 있다.
결정계수 R2는 설명할 수 있는 부분의 총합을 변동의 총합으로 나눈 값으로 0과 1사의 값을 지닌다.
R2= |
SSR |
= 1 - |
SSE |
SST |
SST |
R2이 1에 가까울수록 모형이 데이터에 더 잘 적합되었다(fitted), 또는 회귀직선이 설명력이 높다라고 말할 수 있다.
다만, 모형에 포함된 변수의 수(p)가 증가하면 할수록 R2은 증가하므로 변수의 수가 다른 모형을 비교할 때는 수정된(adjusted) R2를 사용
Ra2= |
Adjusted R2 |
= 1 - |
n-1 |
n-p-1 |
Ra2은 변수의 수가 증가한다고 항상 증가하지는 않는다.
⑤ 모형의 적합도 – AIC
입력변수의 수가 다른 모형을 비교 평가하는 기준으로 AIC(Akaike information criterion)을 사용한다.
AIC = nlog(SSE/n) + 2p
SSE는 오차제곱합으로 작을수록 모형이 적합이 잘 되었다고 할 수 있다. 입력변수의 수가 증가할수록 SSE는 감소하지만, 벌점 2p를 더한 AIC는 항상 감소하지는 않는다. 여러 후보 모형 중에서 AIC가 가장 작은 모형을 선택한다.
⑥ 모형을 이용한 예측
주어진 데이터에 기반하여 회귀식 Ŷ을 얻었다고 하자. 임의의 객체 i*에 대해 관측한 입력변수의 값 x1i*, x2i*, …, xpi*를 그 회귀식에 대입하여 목표변수의 예측치 Ŷix를 얻을 수 있다.
⑦ 예측력
목표변수가 연속형인 경우에 모형의 예측력 측도로서 MSE(mean squared error)를 주로 사용. 시각적으로 관측치(yi)와 예측치 Ŷi의 차이를 확인하기 위해서는 이들을 가로축 및 세로축에 놓고 그린 산점도가 45도 대각선을 중심으로 모여 있으면 예측력이 좋다고 할 수 있다.
2.2 로지스틱 회귀모형(logistic regression model)
목표변수가 두 개의 범주를 가진 이항형인 경우, 가령 목표변수의 두 범주 값 ‘신용이 좋다’는 1, ‘신용이 나쁘다’는 0인 경우.
① 모형의 정의
총 n의 객체(subject) 중에 i번째 객체에 대한 두 개의 범주(성공 또는 실패)를 가지는 이항형 목표변수 값을 Yi, 입력변수들의 값을 X1i, X2i, …, Xpi라고 하자. 이항형 목표변수는 이항분포(binomial distribution)를 따른다. 두 개의 범주값을 1과 0으로 표시하고, 목표변수가 ‘성공’ 1을 가질 확률을 πi = pr( Yi = 1)이라고 하자. 로지스틱 회귀모형을 다음과 같이 나타낸다.
πi = |
exp(0 + β1X1i + β2X2i +…..+ βpXpi) |
, i = 1,..,n |
1 + exp(0 + β1X1i + β2X2i +…..+ βpXpi) |
단, X1i, X2i, …, Xpi 입력변수의 값이고, 이항형 목표변수는 이항분포(binomial distribution)을 따른다고 가정. 위의 식에서 목표변수가 범주형에서 연속형 변수로 바뀌지만, πi가 0~1사이의 값만을 가짐. πi가 1에 가까워질수록 입력변수의 값은 ∞로 증가, 0에 가까워질수록 0으로 수렴. 따라서 로지스틱 회귀모형은 다음과 같이 변환하여 표시할 수 있음.
log( |
πi |
) = |
exp(0 + β1X1i + β2X2i +…..+ βpXpi) |
, i = 1,..,n |
1- πi |
- β0, β1, β2, …. Βp 를 회귀 모수(regression parameters) 또는 회귀 계수(regression coefficients)로서 알려지지 않는 상수이다.
성공확률 πi와 입력변수 관계는 로지스틱 반응 함수로 표현할 수 있다. 입력변수가 증가함에 따라 초기에는 천천히 증가하다가 증가속도가 점차 빨라지고 확률 1/2 이후에는 다시 증가속도가 줄어드는 성장곡선 (growth curve) 형태이다(좌측 도형). 성공 확률과 실패 확률의 비를 오즈비(odds ratio)라고 하고 오즈비에 로그(log)를 취한 것을 로짓변화(logit transformation)이라고 부른다. 입력변수와 로짓의 관계는 직선이고, πi가 0~1의 값만 취하는 반면, 로짓변화는 -4, 6 등 다양한 값을 가진다.
② 회귀 모수의 추정
회귀모수는 최대우도추정법(MLE: maximum likelihood estimation method)에 이해 추정. 데이터의 확률함수를 모수β의 함수로 취급한 것을 우도함수(likelihood function) L(β)라고 하고, 이 우도함수가 최대가 될 때 모수의 추정치를 최대우도추정치(MLE)라고 한다. 적합된 로지스틱 회귀식(logistic regression line)은 다음과 같다.
③ 회귀계수의 해석
회귀계수 βj는 다른 입력변수들을 보정한 후 성공(Y=1)의 로그오즈(log odds = log(π/(1-π))에 미치는 Xj의 효과. 다른 입력 변수가 일정할 때, exp(βj)는 j번째 입력변수 Xj가 한 단위 변동할 때 오즈에 미치는 기여도. 회귀계수 βj가 양수이면 Xj가 증가할 때 성공확률 π와 로짓 log(π/(1-π)는 증가하고, 반대로 βj가 음수이면 Xj가 증가할 때 이들은 감소한다.
④ 변수의 중요도
선형회귀모형에서와 유사하게 로지스틱 회귀모형에서는 변수의 중요도는 z값으로 측정할 수 있다.
⑤ 모형의 적합도
모형의 적합도의 측도로서 이탈도(deviance)를 사용할 수 있다. 이탈도란 어떤 모형 M의 최대로그 우도(maximized log-likelihood) log(LM)에서 포화모형(saturated model) S의 최대로그우도 log(LS)를 뺀 것에 -2를 곱한 값이다.
이탈도 = -2[log(LM)-log(LS)]
포화모형은 각 관측에 모수 하나씩을 사용하여 완벽한 모형을 의미하며, 이탈도가 클 경우에는 그 모형은 적합하지 않다고 한다. 데이터를 모형에 적합하여 얻은 이탈도에 대응하는 p-값(보통 > 0.05)이 클 때 우리는 그 모형 M이 의미있다고 한다. 입력변수의 수가 다른 모형을 비교 평가하는 기준으로 AIC(Akaike Information Criterion)를 종종 사용한다. LM은 모형 M에 대한 우도함수의 최대값, p는 모수의 수이다.
AIC = -2log(LM) + 2P
AIC는 입력변수 또는 모수의 수가 증가한다고 항상 작아지지는 않으므로, 여러 후보 모형들 중에서 가장 작은 AIC를 가지는 모형을 선택한다.
⑥ 모형을 이용한 예측
임의의 객체 i*에 대해 관측한 입력변수의 값 x1i*,x2i*,…,xpi*를 그 로지스틱 회귀식에 대입하여 성공확률 πi* = Pr(Yi* =1)의 예측치를 얻을 수 있다.
예측치가 크면 1, 작으면 0으로 분류한다. 크고 작음을 분류하는 임계치(π0)는 보통 0.5~0.7을 사용하지만, 적영 분야에 따라 달리 결정할 수 있다. 기존 고객 데이터로 회귀계수를 추정하여 로지스틱 회귀식을 얻은 후, 수집한 새로운 고객의 입력변수값을 로지스틱 회귀식에 대입하여 새로운 고객의 성공확률을 예측한다.
⑦ 예측력 – 정오분류표
목표변수가 이항형(신용도가 좋으면 1, 나쁘면 0)인 경우에, 정오분류표를 만들어 예측력을 평가
|
예측범주 Ŷ |
합계 |
||
1 |
0 |
|||
실제범주 Y |
1 |
n11 |
n10 |
n1+ |
0 |
n01 |
n00 |
n0+ |
|
합계 |
n+1 |
n+0 |
n |
- 민감도(Sensitivity): Pr(Ŷ = 1 | Y =1) = n11/n1+
- 특이도(Specificity): Pr(Ŷ = 0 | Y =0) = n00/n0+
- 예측정확도(Prediction Accuracy): Pr(Ŷ =1 | Y =1) + Pr(Ŷ = 0 | Y =0) = (n11+n00)/n
- 오분류율(Misclassification Rate): Pr(Ŷ≠1 | Y =1) + Pr(Ŷ≠0 | Y =0) = (n10+n01)/n
민감도: 실제 양성(Y=1)일 때, 양성으로 예측할 확률(Ŷ = 1)
특이도: 실제 음성(Y=0)일 때 음성으로 예측할 확률(Ŷ = 0)
예측정확도: 실제 양성인데 양성으로, 음성일 때 음성으로 제대로 예측할 확률로 민감도와 특이도의 가중평균
오분류율: 양성인데 음성으로, 음성일 때 양성으로 잘못 예측할 확률
⑦ 예측력 – ROC 곡선
여러 가능한 임계치에 대해 ‘1-특이도(Specificity)’를 가로축에, 민감도를 세로축에 놓고 그린 그래프를 ROC(Receiver Operating Characteristic)곡선이라고 한다. 민감도와 특이도가 높을수록 예측력이 좋다고 할 수 있기 때문에 ROC 곡선이 좌상단에 가까울수록 ROC 곡선 아래 면적인 AUC(Area Under the ROC curve)가 커지고, AUC가 커질수록 예측력이 좋다고 할 수 있다.
2.3 범주형 입력변수 처리
입력변수가 범주형일 경우에는 가변수(dummy variable)로 변환하여 처리한다. 예를 들어, 어떤 입력변수 X가 3개의 범주(a,b,c)를 가진다고 하자. 그러면 두 개의 가변수를 다음과 같이 새롭게 정의한다.
X’= 1, X=a or 0, X≠a
X”= 1, X=b or 0, X≠b
X가 범주 a를 가지는 경우, X’=1, X”=0, X가 범주 b를 가지는 경우 X’=0, X”=1, X가 범주 c를 가지는 경우 X’=0, X”=0. 따라서 X가 범주를 L개 가지는 경우 L-1개의 가변수를 새롭게 생성한다.
2.4 모형 구축을 위한 변수 선택
① 후진소거법(backward elimination): 모든 변수를 포함시킨 모형부터 시작하여 가장 유의하지 않은 변수를 하나씩 제거
② 전진선택법(forward selection): 상수항만 가진 모형부터 시작하여 가장 유의한 변수를 하나씩 포함시켜 포함되지 않고 남은 변수가 모두 유의하지 않을 때까지 추가
③ 단계적 선택법(stepwise selection): 전진선택법처럼 상수항부터 시작하여 가장 유의한 변수를 하나씩 모형에 포함시킨다. 하지만 어떤 변수가 포함된 이후에 기존에 포함된 변수 중에 유의하지 않은 변수를 제거. 즉 전진선택법 + 후진소거법
'KNOU > 2 데이터마이닝' 카테고리의 다른 글
제3장 나무모형 - 회귀나무모형 (0) | 2016.10.26 |
---|---|
제3장 나무모형 - 분류나무모형 (4) | 2016.10.18 |
제2장 회귀모형 - 로지스틱 회귀모형 연습 (0) | 2016.09.14 |
제2장 회귀모형 - 선형회귀 연습 (0) | 2016.09.14 |
1장 데이터과학과 데이터마이닝 (0) | 2016.08.26 |