목표변수가 연속형인 경우 -> 선형 회귀모델, ex) 광고비 투입 대비 매출액
목표변수가 두 개의 범주를 가진 이항형인 경우 -> 로지스틱 회귀모형, ex) 좋다1, 나쁘다0
2.1 선형회귀모형(linear regression model)
① 모형의 정의
Y= β0 + β1X1i + β2X2i +…..+ βpXpi + εi, i = 1,…, n
- β0, β1, β2, …. Βp 를 회귀 모수(regression parameters) 또는 회귀 계수(regression coefficients)로서 알려지지 않는 상수이다.
- εi는 Yi의 근사에서 오차(error)
② 회귀 모수의 추정
그림에서 보듯이 주로 각 관측치로부터 회귀직선까지의 수직거리 제곱의 합을 최소화하는 회귀모수를 찾는 최소제곱추정법(LSE: least square estimation)을 이용한다. 즉 오차 εi= Y - β0 - β1X1i - β2X2i -…..- βpXpi의 제곱합이다.
이 오차의제곱합을 최소화하는 추정값을 이용한 최소제곱회귀직선(least square regression line)은 다음과 같으며, 오차항εi은 없다.
③ 회귀 계수의 해석
회귀계수 βj 다른 입력 변수들이 일정할 때 j번째 입력변수가 한 단위 변동할 때 대응하는 Y의 변동 양으로 해석. 즉, βj는 다른 입력변수를 보정한 후에 Y에 대한 Xj의 기여도. 회귀계수 βj가 양수이면 Xj가 증가할 때 Y도 증가하고, 반대로 βj가 음수이면, Xj가 증가할 때 Y는 감소함을 의미한다.
④ 입력 변수의 중요도
t값의 절대 값이 클수록 영향력이 크다고 할 수 있다. P-값이 유의수준 (보통 0.05)보다 작을 때
귀무가설 H0 : β1 = 0
대립가설 H1 : β1 ≠ 0
귀무가설을 기각하여, Xj의 영향력이 있다고 말할 수 있다.
⑤ 모형의 적합도 – F값
모형의 상수항 β0을 제외한 모든 회귀계수가 0인지 아닌지를 검정하는 측도를 F-값이라 한다.
F-값은 회귀직선에 의해 평균적으로 설명할 수 있는 부분(MSR: mean squared regression)을 설명할 수 없는 부분(MSE: meas squared erroe)으로 나눈 값.
F = |
MSR |
= |
SSR/p |
MSE |
SSE/(n-p-1) |
F-값이 크면 p개 입력변수 중에 최소한 하나는 유의하다(회귀계수가 0이 아니다)라는 뜻이고, F-값이 작아서 p-값(보통 0.05) 보다 크면 모든 입력변수가 유의하지 않아서 회귀선이 쓸모가 없다.
⑤ 모형의 적합도 – 결정계수 R2
모형의 적합도(goodness-of-fit)를 결정계수(coefficient of determination) R2으로 측정할 수 있다.
결정계수 R2는 설명할 수 있는 부분의 총합을 변동의 총합으로 나눈 값으로 0과 1사의 값을 지닌다.
R2= |
SSR |
= 1 - |
SSE |
SST |
SST |
R2이 1에 가까울수록 모형이 데이터에 더 잘 적합되었다(fitted), 또는 회귀직선이 설명력이 높다라고 말할 수 있다.
다만, 모형에 포함된 변수의 수(p)가 증가하면 할수록 R2은 증가하므로 변수의 수가 다른 모형을 비교할 때는 수정된(adjusted) R2를 사용
Ra2= |
Adjusted R2 |
= 1 - |
n-1 |
n-p-1 |
Ra2은 변수의 수가 증가한다고 항상 증가하지는 않는다.
⑤ 모형의 적합도 – AIC
입력변수의 수가 다른 모형을 비교 평가하는 기준으로 AIC(Akaike information criterion)을 사용한다.
AIC = nlog(SSE/n) + 2p
SSE는 오차제곱합으로 작을수록 모형이 적합이 잘 되었다고 할 수 있다. 입력변수의 수가 증가할수록 SSE는 감소하지만, 벌점 2p를 더한 AIC는 항상 감소하지는 않는다. 여러 후보 모형 중에서 AIC가 가장 작은 모형을 선택한다.
⑥ 모형을 이용한 예측
주어진 데이터에 기반하여 회귀식 Ŷ을 얻었다고 하자. 임의의 객체 i*에 대해 관측한 입력변수의 값 x1i*, x2i*, …, xpi*를 그 회귀식에 대입하여 목표변수의 예측치 Ŷix를 얻을 수 있다.
즉, 기존 고객 데이터로 회귀식을 얻은 후, 수집한 새로운 고객의 입력변수 값을 회귀식에 대입하여 새로운 고객의 목표변수값을 예측하는 데 이용할 수 있다.
⑦ 예측력
목표변수가 연속형인 경우에 모형의 예측력 측도로서 MSE(mean squared error)를 주로 사용. 시각적으로 관측치(yi)와 예측치 Ŷi의 차이를 확인하기 위해서는 이들을 가로축 및 세로축에 놓고 그린 산점도가 45도 대각선을 중심으로 모여 있으면 예측력이 좋다고 할 수 있다.