단순 회귀 직선의 기본 가정 중 하나는 주어진 X와 Y의 기대값을 E(Y)라고 하면,
E(Y)= β0 + β1X
가 성립되는 것이다. 이러한 의미는 관심이 되고 있는 모집단에서 변수 X와 Y사이에 선형관계가 성립된다고 하는 것이다.
1. β0, β1의 신뢰구간
> summary(market.lm)
Call:
lm(formula = Y ~ X, data = market)
Residuals:
Min 1Q Median 3Q Max
-3.600 -1.502 0.813 1.128 4.617
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.2696 3.2123 -0.707 0.499926
X 2.6087 0.3878 6.726 0.000149 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.631 on 8 degrees of freedom
Multiple R-squared: 0.8497, Adjusted R-squared: 0.831
F-statistic: 45.24 on 1 and 8 DF, p-value: 0.0001487
# β0 의 95%신뢰구간
> q.val=qt(0.975,8)
> -2.2696-3.2123*q.val;-2.2696+3.2123*q.val
[1] -9.677177
[1] 5.137977
# β1의 95%신뢰구간
q.val=qt(0.975,8)
2.6084-q.val*0.3878 ; 2.6084+q.val*0.3878
[1] 1.714132
[1] 3.502668
2. 추정값의 신뢰 구간을 그려보자
> range(market$X)
[1] 4 12
> pred.frame=data.frame(X=seq(3.5,13.5,0.2))
> pc=predict(market.lm,int='c',newdata=pred.frame) #기대값의 신뢰구간
> pp=predict(market.lm,int='p',newdata=pred.frame) # 새로운 값의 신뢰구간
> head(pc,3);head(pp,3)
fit lwr upr
1 6.860870 2.402421 11.31932
2 7.382609 3.084944 11.68027
3 7.904348 3.765982 12.04271
fit lwr upr
1 6.860870 -0.66731914 14.38906
2 7.382609 -0.05148732 14.81670
3 7.904348 0.56119219 15.24750
> pred.X=pred.frame$X
> plot(market$X, market$Y,ylim=range(market$Y,pp))
> matlines(pred.X,pc,lty=c(1,2,2),col='BLUE')
> matlines(pred.X,pp,lty=c(1,3,3),col='RED')
-> 안쪽 파란색 점섬은 pc의 신뢰구간, 바깥쪽 빨간색 점선은 pp의 신뢰구간. Pp의 신뢰대가 pc의 신뢰대보다 더 넓은 영역을 차지하는 것을 알 수 있다.
> identify(market$X,market$Y)
> market[c(1,2,6),]
NUMBER X Y
1 1 4 9
2 2 8 20
6 6 12 30
> market[c(4,7,9),]
NUMBER X Y
4 4 8 15
7 7 6 18
9 9 6 10
-> 1,2,6번 데이터는 pc 신뢰구간 내 있는 데이터, 4,7,9번은 pc 신뢰구간 바깥에 있는 데이터
3. β1의 검정
귀무가설 H0 : β1 = 0
대립가설 H1 : β1 ≠ 0
위 가설에 대한 검정통계량은, 양측검정이므로 t(n-2; α/2)인 기각값을 구한 후, 만약 |t0| > t(n-2; α/2)이면 귀무가설을 기각하게 된다.
> summary(market.lm)
Call:
lm(formula = Y ~ X, data = market)
Residuals:
Min 1Q Median 3Q Max
-3.600 -1.502 0.813 1.128 4.617
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.2696 3.2123 -0.707 0.499926
X 2.6087 0.3878 6.726 0.000149 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.631 on 8 degrees of freedom
Multiple R-squared: 0.8497, Adjusted R-squared: 0.831
F-statistic: 45.24 on 1 and 8 DF, p-value: 0.0001487
이 결과에서 기울기 β1의 추정값 b1 = 2.6087이고, t-값
t0= 2.6087 / 0.3878 = 6.726921
임을 알 수 있다. P – 값은 다음과 같이 구해진다.
p-값 = Pr(T > |6.726|) = 2 X (1-Pr (T<6.726)) 이므로
> 2*(1-pt(6.726921,8))
[1] 0.0001485319
-> 결론: p-값 = 0.0001485319로서 매우 작으므로 귀무가설 H0 : β1 = 0을 기각하게 된다.
4. 추정값의 신뢰구간
Ŷ의 분산은 X의 함수로서 X=X bar일 경우 최소. X=X bar를 대칭으로 X의 값이 X bar에서 멀어질수록 커짐. 또한 n이 커져도 Var(Ŷ)이 작아짐을 알 수 있음.
문제: 광고비를 투입할수록 매출액이 커진다고 한다. 이 자료를 바탕올 회귀식을 구했더니 매출액(Ŷ) = -2.2696 + 2.6087 * 광고비가 나왔고, 이 회귀식을 이용하여 광고비 7을 투입할 경우 매출액 15.993을 구하였다. 이 때 매출액 15.993에 대하여 95%의 신뢰구간을 설정하시오.
X |
x-xbar |
(x-xbar)^2 |
Y |
Ŷ = -2.2696 + 2.6087x |
y-Ŷ |
(y-Ŷ)^2 |
4 |
-4 |
16 |
9 |
8.166 |
0.834 |
0.695556 |
8 |
0 |
0 |
20 |
18.602 |
1.398 |
1.954404 |
9 |
1 |
1 |
22 |
21.211 |
0.789 |
0.622521 |
8 |
0 |
0 |
15 |
18.602 |
-3.602 |
12.9744 |
8 |
0 |
0 |
17 |
18.602 |
-1.602 |
2.566404 |
12 |
4 |
16 |
30 |
29.038 |
0.962 |
0.925444 |
6 |
-2 |
4 |
18 |
13.384 |
4.616 |
21.30746 |
10 |
2 |
4 |
25 |
23.82 |
1.18 |
1.3924 |
6 |
-2 |
4 |
10 |
13.384 |
-3.384 |
11.45146 |
9 |
1 |
1 |
20 |
21.211 |
-1.211 |
1.466521 |
합계 |
46 |
합계 |
55.357 |
|||
평균x |
8 |
|||||
평균y |
18.6 |
t(n-2 ; α/2) 은 신뢰수준이 95%이므로 α/2 = 0.025이고, 자유도는 10-2 = 8이다. 해당 값을 t분포표 값에서 찾으면 2.306이다. 이를 R에서 계산하면 아래와 같다.
> anova(market.lm)
Analysis of Variance Table
Response: Y
Df Sum Sq Mean Sq F value Pr(>F)
X 1 313.043 313.04 45.24 0.0001487 ***
Residuals 8 55.357 6.92
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> qt(0.975,8)
[1] 2.306004
-> MSE = 6.92, t(10-2 ; 5%/2) = 2.306
= 15.993 ± 2.306 x SQRT ( MSE x (1 + 1/(10-2) + (7-8)^2 / 46))
= 15.993 ± 2.306 x SQRT ( 55.357/8 x (1 + 1/(10-2) + (7-8)^2 / 46))
= 15.993 ± 6.49
따라서 매출액 15.993에 대하여 95%의 신뢰구간은 9.503에서 22.483로 예측할 수 있다.
'KNOU > 2 회귀모형' 카테고리의 다른 글
제2장 중회귀모형 - 표준화된 중회귀분석, 추정과 검정, 변수 추가 (0) | 2016.09.18 |
---|---|
제2장 중회귀모형 - 중회귀모형 추정, 신뢰성 (0) | 2016.09.14 |
제1장 단순회귀모형 - 연습문제 (0) | 2016.09.14 |
제1장 단순회귀모형 - 회귀모형, 회귀선의 추정, 회귀모형의 정도 (0) | 2016.08.26 |