데이터마이너를 꿈꾸며

제1장 단순회귀모형 - 연습문제

KNOU/2 회귀모형 2016. 9. 14. 09:41

분석사례

어떤 슈퍼마켓에서 고객이 구입하는 상품의 금액과 카운터에서 값을 치르는 데 걸리는 시간 사이에 회귀함수 관계가 있는가를 알아보기 위해 10명의 고객을 임의로 추출하여 데이터를 얻었다. R을 이용하여 회귀 모형을 적합해 보자.

1. 자료를 읽어 산점도를 그려보자.

> setwd('c:/Rwork')

> super=read.table('supermarket.txt',header=T)

> head(super)

price time

1 6.4 1.7

2 16.1 2.7

3 42.1 4.9

4 2.1 0.3

5 30.7 3.9

6 32.1 4.1

> length(price)

[1] 10

> a<-1:10

> attach(super)

> plot(price,time,pch=a)

2. 회귀모형과 분석분석표 구하기

> super.lm=lm(time~price,data=super)

> plot(super$price,super$time)

> abline(super.lm,lty=2,col='BLUE')

> summary(super.lm)

Call:

lm(formula = time ~ price, data = super)

Residuals:

Min 1Q Median 3Q Max

-0.37928 -0.32771 -0.04431 0.32231 0.56126

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 0.396460 0.191488 2.07 0.0722 .

price 0.115982 0.008979 12.92 1.22e-06 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.3925 on 8 degrees of freedom

Multiple R-squared: 0.9542, Adjusted R-squared: 0.9485

F-statistic: 166.9 on 1 and 8 DF, p-value: 1.221e-06

> anova(super.lm)

Analysis of Variance Table

Response: time

Df Sum Sq Mean Sq F value Pr(>F)

price 1 25.7036 25.7036 166.85 1.221e-06 ***

Residuals 8 1.2324 0.1541

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

> qf(0.95,1,8)

[1] 5.317655

> 1-pf(166.85,1,8)

[1] 1.220851e-06

데이터 해석을 해 보자

① 회귀계수 추정값은 time hat = 0.396 + 0.116 X price

② 기울기에 대한 t-값은 12.92이고, p-값은 1.221e-06 = 1.221 X 110⁶로 그 값이 매우 적기 때문에 유의하다.

③ F-값은 166.85 이고, 이에 대한 p-값은 1.221e-06으로서 적합된 회귀직선이 유의하다는 것을 알 수 있다.

F₀ = 166.85 > F 기각역 F(1,8;0.05)의 값 qf(0.95,1,8) = 5.317655

이므로 귀무가설 H0 : β1 = 0을 기각한다. 따라서 구해진 회귀직선이 유의하다.

유의 확률 값은 1-pf(166.85,1,8) = 1.22081 X 106

로서, 유의확율 p-값을 이용한 검정은 유의확률 p-값 < 유의수준 α(=0.05)이면 회귀방정식이 유의하다는 것을 나타낸다.

④ 추정값의 표준오차(standard error of estimate) = 0.3925 = MSE의 제곱근 sqrt(0.1541)

⑤ 결정 계수는 0.9542 = SSR / SST = 25.7036 / (25.7036 + 1.2324), 총 변동 중에서 회귀 방정식으로 설명되는 부분이 95.42%라는 것을 나타낸다.

3. 잔차, 추정값 보기 및 잔차 그림 그리기

> names(super.lm)

[1] "coefficients" "residuals" "effects" "rank"

[5] "fitted.values" "assign" "qr" "df.residual"

[9] "xlevels" "call" "terms" "model"

> cbind(super,super.lm$resi,super.lm$fit)

price time super.lm$resi super.lm$fit

1 6.4 1.7 0.56125840 1.138742

2 16.1 2.7 0.43623742 2.263763

3 42.1 4.9 -0.37928275 5.279283

4 2.1 0.3 -0.34002095 0.640021

5 30.7 3.9 -0.05709314 3.957093

6 32.1 4.1 -0.01946730 4.119467

7 7.2 1.2 -0.03152683 1.231527

8 3.4 0.5 -0.29079696 0.790797

9 20.8 3.3 0.49112416 2.808876

10 1.5 0.2 -0.37043203 0.570432

> plot(price,super.lm$resi,pch=19)

> abline(h=0,lty=2)

-> time은 실제 소요 시간, super.lm$fit은 추정값, super.lm$resi는 잔차. 잔차는 실제값과 추정값 차이

abline(h=0,lty=2)은 잔차가 0인 선을 그리되, 라인 타입을 점선(lty=2)으로 그리라는 명령이다. 그림에서 보면 잔차는 0을 중심으로 일정한 범위 내에 있으므로 회귀에 대한 기본 가정을 만족한다고 할 수 있으나, X가 증가함에 따라 곡선관계를 보여주고 있다. 따라서 2차 곡선 회귀식 Ŷ = b₀ + b₁X = b₂X²을 구해보는 것도 의미가 있으리라 생각된다.

4. 추정값의 신뢰대 그리기

> p.x = data.frame(price=c(1,45))

> pc = predict(super.lm,int='c',newdata=p.x)

> pred.x=p.x$price

> plot(super$price,super$time,ylim=range(super$time,pc))

> matlines(pred.x,pc,lty=c(1,2,2),col='BLUE')

걸음만 단계. 무한 반복과 많은 연습이 필요.

'KNOU > 2 회귀모형' 카테고리의 다른 글

제2장 중회귀모형 - 표준화된 중회귀분석, 추정과 검정, 변수 추가 (0)	2016.09.18
제2장 중회귀모형 - 중회귀모형 추정, 신뢰성 (0)	2016.09.14
제1장 단순회귀모형 - 단손회귀의 추정과 검정 (0)	2016.09.12
제1장 단순회귀모형 - 회귀모형, 회귀선의 추정, 회귀모형의 정도 (0)	2016.08.26

Posted by 마르띤

,

제1장 단순회귀모형 - 단손회귀의 추정과 검정

KNOU/2 회귀모형 2016. 9. 12. 14:06

단순 회귀 직선의 기본 가정 중 하나는 주어진 X와 Y의 기대값을 E(Y)라고 하면,

E(Y)= β₀ + β₁X

가 성립되는 것이다. 이러한 의미는 관심이 되고 있는 모집단에서 변수 X와 Y사이에 선형관계가 성립된다고 하는 것이다.

1. β_0,β₁의 신뢰구간

> summary(market.lm)

Call:

lm(formula = Y ~ X, data = market)

Residuals:

Min 1Q Median 3Q Max

-3.600 -1.502 0.813 1.128 4.617

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -2.2696 3.2123 -0.707 0.499926

X 2.6087 0.3878 6.726 0.000149 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.631 on 8 degrees of freedom

Multiple R-squared: 0.8497, Adjusted R-squared: 0.831

F-statistic: 45.24 on 1 and 8 DF, p-value: 0.0001487

# β₀ 의 95%신뢰구간

> q.val=qt(0.975,8)

> -2.2696-3.2123*q.val;-2.2696+3.2123*q.val

[1] -9.677177

[1] 5.137977

# β1의 95%신뢰구간

q.val=qt(0.975,8)

2.6084-q.val*0.3878 ; 2.6084+q.val*0.3878

[1] 1.714132

[1] 3.502668

2. 추정값의 신뢰 구간을 그려보자

> range(market$X)

[1] 4 12

> pred.frame=data.frame(X=seq(3.5,13.5,0.2))

> pc=predict(market.lm,int='c',newdata=pred.frame) #기대값의 신뢰구간

> pp=predict(market.lm,int='p',newdata=pred.frame) # 새로운 값의 신뢰구간

> head(pc,3);head(pp,3)

fit lwr upr

1 6.860870 2.402421 11.31932

2 7.382609 3.084944 11.68027

3 7.904348 3.765982 12.04271

fit lwr upr

1 6.860870 -0.66731914 14.38906

2 7.382609 -0.05148732 14.81670

3 7.904348 0.56119219 15.24750

> pred.X=pred.frame$X

> plot(market$X, market$Y,ylim=range(market$Y,pp))

> matlines(pred.X,pc,lty=c(1,2,2),col='BLUE')

> matlines(pred.X,pp,lty=c(1,3,3),col='RED')

-> 안쪽 파란색 점섬은 pc의 신뢰구간, 바깥쪽 빨간색 점선은 pp의 신뢰구간. Pp의 신뢰대가 pc의 신뢰대보다 더 넓은 영역을 차지하는 것을 알 수 있다.

> identify(market$X,market$Y)

> market[c(1,2,6),]

NUMBER X Y

1 1 4 9

2 2 8 20

6 6 12 30

> market[c(4,7,9),]

NUMBER X Y

4 4 8 15

7 7 6 18

9 9 6 10

-> 1,2,6번 데이터는 pc 신뢰구간 내 있는 데이터, 4,7,9번은 pc 신뢰구간 바깥에 있는 데이터

3. β1의 검정

귀무가설 H₀ : β₁ = 0

대립가설 H1 : β₁ ≠ 0

위 가설에 대한 검정통계량은, 양측검정이므로 t(n-2; α/2)인 기각값을 구한 후, 만약 |t₀| > t(n-2; α/2)이면 귀무가설을 기각하게 된다.

> summary(market.lm)

Call:

lm(formula = Y ~ X, data = market)

Residuals:

Min 1Q Median 3Q Max

-3.600 -1.502 0.813 1.128 4.617

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -2.2696 3.2123 -0.707 0.499926

X 2.6087 0.3878 6.726 0.000149 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.631 on 8 degrees of freedom

Multiple R-squared: 0.8497, Adjusted R-squared: 0.831

F-statistic: 45.24 on 1 and 8 DF, p-value: 0.0001487

이 결과에서 기울기 β1의 추정값 b1 = 2.6087이고, t-값

t₀= 2.6087 / 0.3878 = 6.726921

임을 알 수 있다. P – 값은 다음과 같이 구해진다.

p-값 = Pr(T > |6.726|) = 2 X (1-Pr (T<6.726)) 이므로

> 2*(1-pt(6.726921,8))

[1] 0.0001485319

-> 결론: p-값 = 0.0001485319로서 매우 작으므로 귀무가설 H₀ : β₁ = 0을 기각하게 된다.

4. 추정값의 신뢰구간

Ŷ의 분산은 X의 함수로서 X=X bar일 경우 최소. X=X bar를 대칭으로 X의 값이 X bar에서 멀어질수록 커짐. 또한 n이 커져도 Var(Ŷ)이 작아짐을 알 수 있음.

문제: 광고비를 투입할수록 매출액이 커진다고 한다. 이 자료를 바탕올 회귀식을 구했더니 매출액(Ŷ) = -2.2696 + 2.6087 * 광고비가 나왔고, 이 회귀식을 이용하여 광고비 7을 투입할 경우 매출액 15.993을 구하였다. 이 때 매출액 15.993에 대하여 95%의 신뢰구간을 설정하시오.

X	x-xbar	(x-xbar)^2	Y	Ŷ = -2.2696 + 2.6087x	y-Ŷ	(y-Ŷ)^2
4	-4	16	9	8.166	0.834	0.695556
8	0	0	20	18.602	1.398	1.954404
9	1	1	22	21.211	0.789	0.622521
8	0	0	15	18.602	-3.602	12.9744
8	0	0	17	18.602	-1.602	2.566404
12	4	16	30	29.038	0.962	0.925444
6	-2	4	18	13.384	4.616	21.30746
10	2	4	25	23.82	1.18	1.3924
6	-2	4	10	13.384	-3.384	11.45146
9	1	1	20	21.211	-1.211	1.466521
	합계	46			합계	55.357
평균x	8
평균y	18.6

t(n-2 ; α/2) 은 신뢰수준이 95%이므로 α/2 = 0.025이고, 자유도는 10-2 = 8이다. 해당 값을 t분포표 값에서 찾으면 2.306이다. 이를 R에서 계산하면 아래와 같다.

> anova(market.lm)

Analysis of Variance Table

Response: Y

Df Sum Sq Mean Sq F value Pr(>F)

X 1 313.043 313.04 45.24 0.0001487 ***

Residuals 8 55.357 6.92

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

> qt(0.975,8)

[1] 2.306004

-> MSE = 6.92, t(10-2 ; 5%/2) = 2.306

= 15.993 ± 2.306 x SQRT ( MSE x (1 + 1/(10-2) + (7-8)^2 / 46))

= 15.993 ± 2.306 x SQRT ( 55.357/8 x (1 + 1/(10-2) + (7-8)^2 / 46))

= 15.993 ± 6.49

따라서 매출액 15.993에 대하여 95%의 신뢰구간은 9.503에서 22.483로 예측할 수 있다.

'KNOU > 2 회귀모형' 카테고리의 다른 글

제2장 중회귀모형 - 표준화된 중회귀분석, 추정과 검정, 변수 추가 (0)	2016.09.18
제2장 중회귀모형 - 중회귀모형 추정, 신뢰성 (0)	2016.09.14
제1장 단순회귀모형 - 연습문제 (0)	2016.09.14
제1장 단순회귀모형 - 회귀모형, 회귀선의 추정, 회귀모형의 정도 (0)	2016.08.26

Posted by 마르띤

,

요인	자유도	제곱합	평균제곱	F₀
회귀	K	SSR(회귀제곱합)	MSR(회귀 평균 제곱)=SSR/k	MSR/MSE
잔차	n-k-1	SSE(잔차제곱합)	MSE(잔차 평균제곱) = SSE/ n-k-1
계	n-1	SST(총 제곱합)

F0 =	MSR	회귀방정식이 유의한가를 검정하기 위한 검정통계량
	MSE

요인	자유도	제곱합	평균제곱	F₀	Pr(>F)
회귀	K = 2	SSR(회귀제곱합) = 507.87	MSR=SSR/k = 253.94	MSR/MSE = 292	6.597e-11
잔차	n-k-1 = 12	SSE(잔차제곱합) = 10.42	MSE(잔차 평균제곱) = SSE/ n-k-1 = 0.87
계	n-1 = 14	SST(총 제곱합) = 518.29

데이터마이너를 꿈꾸며

제2장 중회귀모형 - 중회귀모형 추정, 신뢰성

'KNOU > 2 회귀모형' 카테고리의 다른 글

제1장 단순회귀모형 - 연습문제

'KNOU > 2 회귀모형' 카테고리의 다른 글

제1장 단순회귀모형 - 단손회귀의 추정과 검정

'KNOU > 2 회귀모형' 카테고리의 다른 글

링크

카테고리

최근에 올라온 글

최근에 받은 트랙백

글 보관함

티스토리툴바