'선형회귀모형' 태그의 글 목록

'선형회귀모형'에 해당되는 글 1건

2016.09.01 제2장 회귀모형 - 선형 회귀모형

제2장 회귀모형 - 선형 회귀모형

카테고리 없음 2016. 9. 1. 19:23

목표변수가 연속형인 경우 -> 선형 회귀모델, ex) 광고비 투입 대비 매출액

목표변수가 두 개의 범주를 가진 이항형인 경우 -> 로지스틱 회귀모형, ex) 좋다1, 나쁘다0

2.1 선형회귀모형(linear regression model)

① 모형의 정의

Y= β₀ + β₁X_1i+ β₂X_{2i +…..+}βpXp_{i +}ε_i,i = 1,…, n

- β_0,β₁, β_2,…. Β_p를 회귀 모수(regression parameters) 또는 회귀 계수(regression coefficients)로서 알려지지 않는 상수이다.

- ε_i는 Y_i의 근사에서 오차(error)

② 회귀 모수의 추정

그림에서 보듯이 주로 각 관측치로부터 회귀직선까지의 수직거리 제곱의 합을 최소화하는 회귀모수를 찾는 최소제곱추정법(LSE: least square estimation)을 이용한다. 즉 오차 ε_i=Y - β₀ - β₁X_{1i -} β₂X_{2i -…..-}βpXp_{i의 제곱합이다.}

이 오차의제곱합을 최소화하는 추정값을 이용한 최소제곱회귀직선(least square regression line)은 다음과 같으며, 오차항ε_i은 없다.

③ 회귀 계수의 해석

회귀계수 β_j다른 입력 변수들이 일정할 때 j번째 입력변수가 한 단위 변동할 때 대응하는 Y의 변동 양으로 해석. 즉, β_j는 다른 입력변수를 보정한 후에 Y에 대한 X_j의 기여도. 회귀계수 β_j가 양수이면 X_j가 증가할 때 Y도 증가하고, 반대로 β_j가 음수이면, X_j가 증가할 때 Y는 감소함을 의미한다.

④ 입력 변수의 중요도

t값의 절대 값이 클수록 영향력이 크다고 할 수 있다. P-값이 유의수준 (보통 0.05)보다 작을 때

귀무가설 H₀ : β₁ = 0

대립가설 H1 : β₁ ≠ 0

귀무가설을 기각하여, X_j의 영향력이 있다고 말할 수 있다.

⑤ 모형의 적합도 – F값

모형의 상수항 β₀을 제외한 모든 회귀계수가 0인지 아닌지를 검정하는 측도를 F-값이라 한다.

F-값은 회귀직선에 의해 평균적으로 설명할 수 있는 부분(MSR: mean squared regression)을 설명할 수 없는 부분(MSE: meas squared erroe)으로 나눈 값.

F =	MSR	=	SSR/p
	MSE		SSE/(n-p-1)

F-값이 크면 p개 입력변수 중에 최소한 하나는 유의하다(회귀계수가 0이 아니다)라는 뜻이고, F-값이 작아서 p-값(보통 0.05) 보다 크면 모든 입력변수가 유의하지 않아서 회귀선이 쓸모가 없다.

⑤ 모형의 적합도 – 결정계수 R²

모형의 적합도(goodness-of-fit)를 결정계수(coefficient of determination) R²으로 측정할 수 있다.

결정계수 R2는 설명할 수 있는 부분의 총합을 변동의 총합으로 나눈 값으로 0과 1사의 값을 지닌다.

R²=	SSR	= 1 -	SSE
	SST		SST

R²이 1에 가까울수록 모형이 데이터에 더 잘 적합되었다(fitted), 또는 회귀직선이 설명력이 높다라고 말할 수 있다.

다만, 모형에 포함된 변수의 수(p)가 증가하면 할수록 R²은 증가하므로 변수의 수가 다른 모형을 비교할 때는 수정된(adjusted) R²를 사용

R_a²=	Adjusted R²	= 1 -	n-1
			n-p-1

R_a²은 변수의 수가 증가한다고 항상 증가하지는 않는다.

⑤ 모형의 적합도 – AIC

입력변수의 수가 다른 모형을 비교 평가하는 기준으로 AIC(Akaike information criterion)을 사용한다.

AIC = nlog(SSE/n) + 2p

SSE는 오차제곱합으로 작을수록 모형이 적합이 잘 되었다고 할 수 있다. 입력변수의 수가 증가할수록 SSE는 감소하지만, 벌점 2p를 더한 AIC는 항상 감소하지는 않는다. 여러 후보 모형 중에서 AIC가 가장 작은 모형을 선택한다.

⑥ 모형을 이용한 예측

주어진 데이터에 기반하여 회귀식 Ŷ을 얻었다고 하자. 임의의 객체 i^*에 대해 관측한 입력변수의 값 x_1i*, x_2i*, …, x_pi*를 그 회귀식에 대입하여 목표변수의 예측치 Ŷ_ix를 얻을 수 있다.

즉, 기존 고객 데이터로 회귀식을 얻은 후, 수집한 새로운 고객의 입력변수 값을 회귀식에 대입하여 새로운 고객의 목표변수값을 예측하는 데 이용할 수 있다.

⑦ 예측력

목표변수가 연속형인 경우에 모형의 예측력 측도로서 MSE(mean squared error)를 주로 사용. 시각적으로 관측치(y_i)와 예측치 Ŷ_i의 차이를 확인하기 위해서는 이들을 가로축 및 세로축에 놓고 그린 산점도가 45도 대각선을 중심으로 모여 있으면 예측력이 좋다고 할 수 있다.