'LM' 태그의 글 목록

6장 - 중회귀분석 : 집객효과가 가장 큰 광고의 조합은 무엇인가?

Python, R 분석과 프로그래밍/비지니스 활용 사례로 배우는 데이터 분석 : R 2017. 2. 15. 19:30

문제인식: 매스미디어 광고에 의한 신규유저수가 일정치 않다. 이는 매월 TV광고와 잡지 광고의배분이 일정하지 않기 때문이다. 이에 TV, 잡지 광고비와 신규 유저수의 관계를 파악한다.

해결 방법: TV, 잡지 광고비와 신규 유저수 데이터를 기반으로 중회귀분석을 실시한다.

R

1. 데이터 읽어 들이기

> ad.data <- read.csv('ad_result.csv',header=T,stringsAsFactors = F)

> ad.data

month tvcm magazine install

1 2013-01 6358 5955 53948

2 2013-02 8176 6069 57300

3 2013-03 6853 5862 52057

4 2013-04 5271 5247 44044

5 2013-05 6473 6365 54063

6 2013-06 7682 6555 58097

7 2013-07 5666 5546 47407

8 2013-08 6659 6066 53333

9 2013-09 6066 5646 49918

10 2013-10 10090 6545 59963

2. TV 광고의 광고비용과 신규 유저수의 산점도 그리기

> library(ggplot2)
> library(scales)

> ggplot(ad.data,aes(x=tvcm,y=install))

> ggplot(ad.data,aes(x=tvcm,y=install))+geom_point()

> ggplot(ad.data,aes(x=tvcm,y=install))+geom_point()+xlab('TV 광고비')+ylab('신규유저수')

> ggplot(ad.data,aes(x=tvcm,y=install))+geom_point()+xlab('TV 광고비')+ylab('신규유저수')+scale_x_continuous(label=comma)+scale_y_continuous(label=comma)

3. 잡지 광고의 광고비용과 신규 유저수의 산점도 그리기

> ggplot(ad.data,aes(x=magazine,y=install))+geom_point()+xlab('잡지 광고비')+ylab('신규유저수')+scale_x_continuous(label=comma)+scale_y_continuous(label=comma)

4. 회귀분석 실행

> fit <-lm(install~.,data=ad.data[,c('install','tvcm','magazine')])

> fit

Call:

lm(formula = install ~ ., data = ad.data[, c("install", "tvcm",

"magazine")])

Coefficients:

(Intercept) tvcm magazine

188.174 1.361 7.250

-> 이상 내용으로부터 아래와 같은 모델을 만들 수 있다.

신규 유저수 = 1.361 X TV광고비 + 7.25 X 잡지광고비 + 188.174

이라는 관계가 있으며, 신규 유저는 광고를 실시하지 않을 때 월 188명 정도이다. (아래 summary(fit)을 통해 유의하지 않음을 알 수 있다) 그리고 TV 광고에 1만원을 투입하면 양 1.3609명의 신규 고객을, 잡지 광고에 1만원을 투자하면 약 7.2498명의 신규 유저를 확보할 수 있다.

5. 회귀분석의 결과 해석

> summary(fit)

Call:

lm(formula = install ~ ., data = ad.data[, c("install", "tvcm", "magazine")])

Residuals:

Min 1Q Median 3Q Max

-1406.87 -984.49 -12.11 432.82 1985.84

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 188.1743 7719.1308 0.024 0.98123

tvcm 1.3609 0.5174 2.630 0.03390 *

magazine 7.2498 1.6926 4.283 0.00364 **

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1387 on 7 degrees of freedom

Multiple R-squared: 0.9379, Adjusted R-squared: 0.9202

F-statistic: 52.86 on 2 and 7 DF, p-value: 5.967e-05

잔차(Residuals) : 잔차(예측값과 측정값의 차이)분포를 사분위수로 표현한 것으로, 데이터의 치우침이 있는지 확인할 수 있다. 1Q의 절대값이 3Q의 절대값보다 커서 약간 치우침이 있어 보인다.

Coefficients : 절편과 기울기에 관한 개요.

Adjusted R-Squared : 0.9202로 이 모델로 전체 데이터의 약 92.02%를 설명할 수 있다.

또는 아래와 같이 회귀분석 모델을 만들 수 있다.

> fit2<-lm(install~tvcm+magazine,data=ad.data)

> summary(fit2)

Call:

lm(formula = install ~ tvcm + magazine, data = ad.data)

Residuals:

Min 1Q Median 3Q Max

-1406.87 -984.49 -12.11 432.82 1985.84

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 188.1743 7719.1308 0.024 0.98123

tvcm 1.3609 0.5174 2.630 0.03390 *

magazine 7.2498 1.6926 4.283 0.00364 **

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1387 on 7 degrees of freedom

Multiple R-squared: 0.9379, Adjusted R-squared: 0.9202

F-statistic: 52.86 on 2 and 7 DF, p-value: 5.967e-05

출처: 비지니스 활용 사레로 배우는 데이터 분석: R (사카마키 류지, 사토 요헤이 지음)

'Python, R 분석과 프로그래밍 > 비지니스 활용 사례로 배우는 데이터 분석 : R' 카테고리의 다른 글

5장 - A/B 테스트 : 어느 쪽의 배너광고가 반응이 더 좋은가? (0)	2017.02.13
4장 - 크로스 분석: 어떤 속성들의 고객들이 떠날까? (0)	2017.02.10

Posted by 마르띤

,

데이터마이너를 꿈꾸며 데이터 분석과 외국어 공부에 관심이 많습니다. 공부한 내용을 기억하고 나누고 싶어 블로그를 운영합니다.

제3장 연속형 자료의 분석 - 3.2 여러집단의 비교 ANOVA

KNOU/2 보건 정보 데이터 분석 2016. 10. 31. 10:08

3.2 여러 집단의 비교
3.2.1 1개의 요인을 고려하는 경우
p.86, 자폐아, 정상아, 지진아에 대한 혈청 항원 농도에 대해 조사를 하였다.
이들 사이에 면역 이상에 대한 차이가 있다고 할 수 있는가?
귀무가설 H0: u1 = u2 = u3, 대립가설 H1: not H0

1) 데이터 입력

> a<-c(755,365,820,900,170,300,325,385,380,215,400,343,415,345,410,460,225,440,400,360,435,450,360)

> b<-c(165,390,290,435,235,345,320,330,205,375,345,305,220,270,355,360,335,305,325,245,285,370,345,345,230,370,285,315,195,270,305,375,220)

> c<-c(380,510,315,565,715,380,390,245,155,335,295,200,105,105,245)

> boxplot(a,b,c,col='yellow',names=c('자폐아','정상아','지진아'))

> library(vioplot)

> vioplot(a,b,c,col='yellow',names=c('자폐아','정상아','지진아'))

2) 각 그룹의 평균과 분산

> sapply(list(a,b,c),mean)

[1] 419.9130 305.0000 329.3333

> sapply(list(a,b,c),var)

[1] 31693.356 4071.875 29224.524

3) 등분산 검정

> sera = c(a,b,c)

> group = factor(rep(1:3,c(length(a),length(b),length(c))))

> fligner.test(sera~group)

Fligner-Killeen test of homogeneity of variances

data: sera by group

Fligner-Killeen:med chi-squared = 6.8506, df = 2, p-value = 0.03254

결과 해석: p-값이 0.03254이어서 등분산성에 조금은 문제가 있음을 알 수 있다.

4) one way Anova

> out = aov(sera~group)

> out

Call:

aov(formula = sera ~ group)

Terms:

group Residuals

Sum of Squares 185159.3 1236697.2

Deg. of Freedom 2 68

Residual standard error: 134.8582

Estimated effects may be unbalanced

> summary(out)

Df Sum Sq Mean Sq F value Pr(>F)

group 2 185159 92580 5.091 0.00871 **

Residuals 68 1236697 18187

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

결과해석:

질문:이들 사이에 면역 이상에 대한 차이가 있다고 할 수 있는가?
귀무가설 H0: u1 = u2 = u3,

대립가설 H1: not H0

p – value: 0.00871

결정: 귀무가설을 기각, 세 그룹 사이 면역 이상에 대한 차이가 있다.

5) 모형 적합성 검토 = 오차검토

> par(mfrow=c(2,2))

> plot(out)

결과 해석: 정규성 분포에 약간 문제가 있지만 큰 문제는 아니다.

6) average profile plot 평균 반응 프로파일 그림 – 효과 크기를 알 수 있는 plot

> plot.design(sera~group)

결과 해석: 그룹1과 그룹2가 유의하게 서로 달랐다.

7) 다중 비교: 어느 그룹 간 차이가 있는지 보자.

> tukey = TukeyHSD(out)

> tukey

Tukey multiple comparisons of means

95% family-wise confidence level

Fit: aov(formula = sera ~ group)

$group

diff lwr upr p adj

2-1 -114.91304 -202.68435 -27.14174 0.0070326

3-1 -90.57971 -197.82092 16.66150 0.1142305

3-2 24.33333 -76.28971 124.95638 0.8315432

> plot(tukey)

결과 해석: 그룹1과 그룹2가 유의하게 서로 달랐다. 그룹1과 2의 차이만이 신뢰도구간을 0을 포함하지 안으므로 유의미하게 다르다고 결론을 내릴 수 있다.

8) LSD 최소유의차검정 test

> pairwise.t.test(sera,group)

Pairwise comparisons using t tests with pooled SD

data: sera and group

1 2

2 0.0076 -

3 0.0938 0.5642

P value adjustment method: holm

결과 해석: 그룹1과 그룹2가 유의하게 서로 달랐다.

3.2.2 2개의 요인을 고려하는 경우
(1) 반복이 없을 때

예제) 장비 사용에 대한 3가지 방법을 연령별로 다르게 교육. 숙지 시간이 연령, 방법에 따라 다른가?

귀무가설 h0: u1 = u2 = u3, 대립가설 h1: not h0

1. 데이터 읽기

> setwd('c:/Rwork')

> data=read.table('device.txt',header=T)

> head(data)

ages way hour

1 under20 A 7

2 20~29 A 8

3 30~39 A 9

4 40~49 A 10

5 above50 A 11

6 under20 B 9

> tail(data)

ages way hour

10 above50 B 12

11 under20 C 10

12 20~29 C 10

13 30~39 C 12

14 40~49 C 12

15 above50 C 14

2. two way ANOVA

> out = aov(hour~ages+way,data=data)

> out

Call:

aov(formula = hour ~ ages + way, data = data)

Terms:

ages way Residuals

Sum of Squares 24.933333 18.533333 3.466667

Deg. of Freedom 4 2 8

Residual standard error: 0.6582806

Estimated effects may be unbalanced

> summary(out)

Df Sum Sq Mean Sq F value Pr(>F)

ages 4 24.933 6.233 14.38 0.001002 **

way 2 18.533 9.267 21.39 0.000617 ***

Residuals 8 3.467 0.433

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

결과해석:

귀무가설 h0: u1 = u2 = u3,

대립가설 h1: not h0

결론: p value가 0.05보다 적으므로 H0를 기각, h1를 받아들인다. 숙지 시간은 연령, 방법에 따라 서로 유의하게 다르다.

3. 모형적합성 검토 = 오차검토

> par(mfrow = c(2,2))

> plot(out)

결과 해석: 오차의 등분산성 및 정규성에 문제가 없음을 알 수 있다.

4. 다중비교, 왜 서로 유의한 차이가 났을까?

4.1) 나이 별 보기

> attach(data)

> pairwise.t.test(hour,ages)

Pairwise comparisons using t tests with pooled SD

data: hour and ages

20~29 30~39 40~49 above50

30~39 1.00 - - -

40~49 1.00 1.00 - -

above50 0.18 0.66 0.91 -

under20 1.00 1.00 1.00 0.13

P value adjustment method: holm

결과해석: 50대 이상이 다른 나이 수준보다 높았다. 결국 나이 수준이 숙지시간에 차이를 보인 것은 50대 이상이 다른 나이의 수준과 차이가 났기 때문이다.

4.2) 교육 방법 별 보기

> pairwise.t.test(hour,way)

Pairwise comparisons using t tests with pooled SD

data: hour and way

A B

B 0.549 -

C 0.061 0.125

P value adjustment method: holm

결과해석:

귀무가설 h0: u1 = u2 = u3,

대립가설 h1: not h0

결론: 방법은 A와 C간 차이가 났다.

위에서 본 두 함수 pairwise.t.test(hour,ages) ,pairwise.t.test(hour,way) 에 대하여 그래프를 그리면 아래와 같다.

>par(mfrow=c(1,2))

> plot.design(hour~ages)

> plot.design(hour~way)

5. 다중 비교

> tukey = TukeyHSD(out)

> tukey

Tukey multiple comparisons of means

95% family-wise confidence level

Fit: aov(formula = hour ~ ages + way, data = data)

$ages diff lwr upr p adj

30~39-20~29 1.0000000 -0.8568723 2.8568723 0.4057524

40~49-20~29 1.3333333 -0.5235390 3.1902056 0.1877558

above50-20~29 3.3333333 1.4764610 5.1902056 0.0017351

under20-20~29 -0.3333333 -2.1902056 1.5235390 0.9676094

40~49-30~39 0.3333333 -1.5235390 2.1902056 0.9676094

above50-30~39 2.3333333 0.4764610 4.1902056 0.0154324

under20-30~39 -1.3333333 -3.1902056 0.5235390 0.1877558

above50-40~49 2.0000000 0.1431277 3.8568723 0.0348816

under20-40~49 -1.6666667 -3.5235390 0.1902056 0.0810838

under20-above50 -3.6666667 -5.5235390 -1.8097944 0.0009146

$way diff lwr upr p adj

B-A 0.6 -0.5896489 1.789649 0.3666717

C-A 2.6 1.4103511 3.789649 0.0006358

C-B 2.0 0.8103511 3.189649 0.0034083

> plot(tukey)

결과해석:

귀무가설 h0: u1 = u2 = u3,

대립가설 h1: not h0

결론: 그래프에서도 나이가 20대 미만과 50대 이상에서, 방법은 3번과 1번 그리고 3번과 2번에서 신뢰구간을 0을 포함하지 않으므로 유의한 차이가 있었음을 알 수 있다.

(2) 반복이 있을 때
예) 세 종류의 호르몬 처리와 성별에 따라 혈액 칼슘값에 차이가 있는지 알아보기 위해 남녀 각 15명씩을 선정하여 이들을 세 그룹으로 나누어 세 가지 호르몬 처리를 한 후 혈액 칼슘을 측정하였다.
성별에 따라 혈액 칼슘에 차이가 있는가? 처리와 성별에 대한 교호작용이 존재하는가?

H0: 성별간 차이가 없다. H1: 성별간 차이가 있다
H1: 처리간 차이가 없다, H1: 처리간 차이가 있다.

1. 데이터 입력

> data=read.csv('calcium.csv')

> head(data)

sex way cal

1 M A 16.87

2 M A 16.18

3 M A 17.12

4 M A 16.83

5 M A 17.19

6 F A 15.86

> tail(data)

sex way cal

25 M C 24.46

26 F C 30.54

27 F C 32.41

28 F C 28.97

29 F C 28.46

30 F C 29.65

2. two way anova

> out = aov(cal~sex*way,data=data)

> out

Call:

aov(formula = cal ~ sex * way, data = data)

Terms:

sex way sex:way Residuals

Sum of Squares 4.0627 1146.6420 3.8454 76.2924

Deg. of Freedom 1 2 2 24

Residual standard error: 1.782933

Estimated effects may be unbalanced

> summary(out

Df Sum Sq Mean Sq F value Pr(>F)

sex 1 4.1 4.1 1.278 0.269

way 2 1146.6 573.3 180.355 3.47e-15 ***

sex:way 2 3.8 1.9 0.605 0.554

Residuals 24 76.3 3.2

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

결과해석: 처리에 대한 p-value가 0.0001보다 적게 나와 처리수준 간 모평균 차이가 없다라는 귀무가설을 기각. 성별과 처리도 p value가 0.05를 넘어 교호작용은 없다.

3. 모형적합성 검토 = 오차검토

> par(mfrow=c(2,2))

> plot(out)

결과 해석: 모형적합성 검토, 잔차도를 그려본 결과 오차의 등분산성에 약간의 문제는 있으나 큰 문제는 없음

4. 교호작용 검토

> par(mfrow=c(1,1))

> with(data,interaction.plot(sex,way,cal))

결과 해석: with(data,interaction.plot(sex,way,cal)) #두 개의 선이 비슷한 거리를 유지하면서 평행에 가까우므로 interaction 교호작용이 없음을 알 수 있다. interaction.plot은 두 그룹변수의 조합으로 y의 평균을 그래프에 넣어 두 그룹 변수가 서로 y의 평균에 영향을 주는지 보는 방법

5. 다중비교

> attach(data)

The following object is masked _by_ .GlobalEnv:

sex

The following objects are masked from data (pos = 3):

cal, sex, way

The following objects are masked from data (pos = 4):

cal, sex, way

> pairwise.t.test(cal,sex)

Error in tapply(x, g, mean, na.rm = TRUE) :

arguments must have same length

왜 오류나는지 모르겠다. 더 공부 필요.

> pairwise.t.test(cal,way)

Pairwise comparisons using t tests with pooled SD

data: cal and way

A B

B 0.052 -

C 8.4e-16 1.2e-14

P value adjustment method: holm

결과 해석:C와 A, 그리고 C와 B간 방법이 유의하게 차이가 났다.

> tukey = TukeyHSD(out)

> tukey

Tukey multiple comparisons of means

95% family-wise confidence level

Fit: aov(formula = cal ~ sex * way, data = data)

$sex

diff lwr upr p adj

M-F 0.736 -0.6076702 2.07967 0.269434

$way

diff lwr upr p adj

B-A 1.609 -0.3822165 3.600217 0.1295236

C-A 13.845 11.8537835 15.836217 0.0000000

C-B 12.236 10.2447835 14.227217 0.0000000

$`sex:way`

diff lwr upr p adj

M:A-F:A 1.548 -1.9385413 5.034541 0.7421633

F:B-F:A 1.956 -1.5305413 5.442541 0.5236718

M:B-F:A 2.810 -0.6765413 6.296541 0.1661169

F:C-F:A 14.716 11.2294587 18.202541 0.0000000

M:C-F:A 14.522 11.0354587 18.008541 0.0000000

F:B-M:A 0.408 -3.0785413 3.894541 0.9990770

M:B-M:A 1.262 -2.2245413 4.748541 0.8686490

F:C-M:A 13.168 9.6814587 16.654541 0.0000000

M:C-M:A 12.974 9.4874587 16.460541 0.0000000

M:B-F:B 0.854 -2.6325413 4.340541 0.9720701

F:C-F:B 12.760 9.2734587 16.246541 0.0000000

M:C-F:B 12.566 9.0794587 16.052541 0.0000000

F:C-M:B 11.906 8.4194587 15.392541 0.0000000

M:C-M:B 11.712 8.2254587 15.198541 0.0000000

M:C-F:C -0.194 -3.6805413 3.292541 0.9999760

결과 해석:

귀무가설: H0: 성별간 차이가 없다. H1: 성별간 차이가 있다
대립가설: H1: 처리간 차이가 없다, H1: 처리간 차이가 있다.

결론: 성별간에는 유의한 차이는 없지만 방법에는 유의한 차이가 났다. C와 A, 그리고 C와 B간 방법이 유의하게 차이가 났다.

> par(mfrow=c(2,2))

> plot(tukey)

결과 해석:

귀무가설: H0: 성별간 차이가 없다. H1: 성별간 차이가 있다
대립가설: H1: 처리간 차이가 없다, H1: 처리간 차이가 있다.

결론: 처리 C와 A, C와 B간 유의하게 서로 달랐다.

<또 다른 방법>

위의 R 코드를 다른 방법으로 해보면 아래와 같다.(출처: R을 이용한 통계 분석, 안재형 지음)

> boxplot(cal~way+sex,col='red',data=data)

교호작용이 있는지 본 후

> with(data,interaction.plot(sex,way,cal))

결과 해석: 두개의 선이 서로 만나지 않으므로 교호작용이 존재하지 않는다는 것을 알 수 있다. (교호작용: 두 그룹 변수가 서로 y의 평균에 영향을 주는지 보는 방법)

분산분석표를 구한다. 교호작용이 존재하면 곱하기(sex*way), 존재하지 않으면 더하기(sex+way)

> out2=lm(cal~sex+way,data=data)

> anova(out2)

Analysis of Variance Table

Response: cal

Df Sum Sq Mean Sq F value Pr(>F)

sex 1 4.06 4.06 1.3181 0.2614

way 2 1146.64 573.32 186.0089 3.944e-16 ***

Residuals 26 80.14 3.08

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

> summary(out2)

Call:

lm(formula = cal ~ sex + way, data = data)

Residuals:

Min 1Q Median 3Q Max

-5.8170 -0.5815 -0.0335 0.6623 4.3730

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 15.6960 0.6411 24.484 < 2e-16 ***

sexM 0.7360 0.6411 1.148 0.2614

wayB 1.6090 0.7851 2.049 0.0506 .

wayC 13.8450 0.7851 17.634 5.53e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.756 on 26 degrees of freedom

Multiple R-squared: 0.9349, Adjusted R-squared: 0.9274

F-statistic: 124.4 on 3 and 26 DF, p-value: 1.532e-15

결과 해석:

- sexM(M-F, p-value는 0.2614)의 추정치가 0.7360으로 유의하지는 않다.

- wayC(C-A, p-value는 5.533-16)의 추청치가 13.8450으로 유의하고 평균은 A보다 높다.

다중비교

> library(multcomp)

> tukey2=glht(out2,linfct=mcp(way='Tukey'))

> tukey2

General Linear Hypotheses

Multiple Comparisons of Means: Tukey Contrasts

Linear Hypotheses:

Estimate

B - A == 0 1.609

C - A == 0 13.845

C - B == 0 12.236

> summary(tukey2)

Simultaneous Tests for General Linear Hypotheses

Multiple Comparisons of Means: Tukey Contrasts

Fit: lm(formula = cal ~ sex + way, data = data)

Linear Hypotheses:

Estimate Std. Error t value Pr(>|t|)

B - A == 0 1.6090 0.7851 2.049 0.121

C - A == 0 13.8450 0.7851 17.634 <0.001 ***

C - B == 0 12.2360 0.7851 15.584 <0.001 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Adjusted p values reported -- single-step method)

> plot(tukey2)

결과 해석:

귀무가설: H0: 성별간 차이가 없다. H1: 성별간 차이가 있다
대립가설: H1: 처리간 차이가 없다, H1: 처리간 차이가 있다.

결론: 방법 C와 A, C와 B는 신뢰구간을 0을 포함하지 않으므로 유의한 차이가 있다는 결론을 내린다 (p-value < 0.001)

출처: 보건정보데이터 분석(이태림 저), R을 이용한 누구나 하는 통계분석(안재형 저)

'KNOU > 2 보건 정보 데이터 분석' 카테고리의 다른 글

제2장 보건정보 데이터의 기초분석 (1)	2016.12.27
제4장 범주형 자료의 분석 - 4.2.2 독립성 검정 (카이제곱 검정) (0)	2016.11.08
제4장 범주형 자료의 분석 - 4.2 범주형 자료의 검정(카이제곱 검정) (0)	2016.11.04
제4장 범주형 자료의 분석 - 4.1 범주형 자료와 분할표 (0)	2016.11.04
제3장 연속형 자료의 분석 - 3.1 두 집단의 평균 비교 two sample, paired sample (0)	2016.10.24

Posted by 마르띤

,

데이터마이너를 꿈꾸며 데이터 분석과 외국어 공부에 관심이 많습니다. 공부한 내용을 기억하고 나누고 싶어 블로그를 운영합니다.

제2장 회귀모형 - 선형회귀 연습

KNOU/2 데이터마이닝 2016. 9. 14. 10:10

목표변수가 연속형인 경우 -> 선형 회귀모델, ex) 광고비 투입 대비 매출액

목표변수가 두 개의 범주를 가진 이항형인 경우 -> 로지스틱 회귀모형, ex) 좋다1, 나쁘다0

보스턴 하우징 데이터 Housing Values in Suburbs of Boston

(출처: http://127.0.0.1:31866/library/MASS/html/Boston.html)

변수명	속성	변수 설명
crim	수치형(numeric)	per capita crime rate by town 타운별 1인당 범죄율
zn	수치형(numeric)	proportion of residential land zoned for lots over 25,000 sq.ft. 25,000평방피트를 초과하는 거주지역 비율
indus	수치형(numeric)	proportion of non-retail business acres per town. 비소매 사업지역의 토지 비율
chas	범주형(integer)	Charles River dummy variable (= 1 if tract bounds river; 0 otherwise). 찰스강 더비 변수 (강의 경계에 위치 = 1, 아니면 = 0)
nox	수치형(numeric)	nitrogen oxides concentration (parts per 10 million). 10ppm당 농축 일산화질소
rm	수치형(numeric)	average number of rooms per dwelling. 주택 1가구등 방의 평균 개수
age	수치형(numeric)	proportion of owner-occupied units built prior to 1940. 1940년 이전에 건축된 소유자 주택 비율
dis	수치형(numeric)	weighted mean of distances to five Boston employment centres. 5개의 보스턴 고용센터까지의 접근성 지수
rad	범주형(integer)	index of accessibility to radial highways. 방사형 도로까지의 접근성 지수
tax	수치형(numeric)	full-value property-tax rate per \$10,000. 10,000달러당 재산세율
ptratio	수치형(numeric)	pupil-teacher ratio by town. 타운별 학생/교사 비율
black	수치형(numeric)	1000(Bk - 0.63)^2 where Bk is the proportion of blacks by town. 타운별 흑인의 비율
lstat	수치형(numeric)	lower status of the population (percent). 모집단의 하위계층의 비율
medv (목표변수)	수치형(numeric)	median value of owner-occupied homes in \$1000s. 본인 소유의 주택가격(중앙값)

1. 데이터 불러오기

> library(MASS)

> range(Boston$medv)

[1] 5 50

> stem(Boston$medv)

The decimal point is at the |

4 | 006

6 | 30022245

8 | 1334455788567

10 | 2224455899035778899

12 | 013567778011112333444455668888899

14 | 0111233445556689990001222344666667

16 | 01112234556677880111222344455567888889

18 | 01222334445555667778899990011112233333444444555566666778889999

20 | 0000011111223333444455566666677888990001122222444445566777777788999

22 | 00000001222223344555666667788889999000011111112222333344566777788889

24 | 001112333444455566777888800000000123

26 | 24456667011555599

28 | 01244567770011466889

30 | 111357801255667

32 | 0024579011223448

34 | 679991244

36 | 01224502369

38 | 78

40 | 37

42 | 38158

44 | 084

46 | 07

48 | 358

50 | 0000000000000000

> i=which(Boston$medv==50)#본인 소유의 주택가격(중앙값)

> Boston[i,]

crim zn indus chas nox rm age dis rad tax ptratio black lstat medv

162 1.46336 0 19.58 0 0.6050 7.489 90.8 1.9709 5 403 14.7 374.43 1.73 50

163 1.83377 0 19.58 1 0.6050 7.802 98.2 2.0407 5 403 14.7 389.61 1.92 50

164 1.51902 0 19.58 1 0.6050 8.375 93.9 2.1620 5 403 14.7 388.45 3.32 50

167 2.01019 0 19.58 0 0.6050 7.929 96.2 2.0459 5 403 14.7 369.30 3.70 50

187 0.05602 0 2.46 0 0.4880 7.831 53.6 3.1992 3 193 17.8 392.63 4.45 50

196 0.01381 80 0.46 0 0.4220 7.875 32.0 5.6484 4 255 14.4 394.23 2.97 50

205 0.02009 95 2.68 0 0.4161 8.034 31.9 5.1180 4 224 14.7 390.55 2.88 50

226 0.52693 0 6.20 0 0.5040 8.725 83.0 2.8944 8 307 17.4 382.00 4.63 50

258 0.61154 20 3.97 0 0.6470 8.704 86.9 1.8010 5 264 13.0 389.70 5.12 50

268 0.57834 20 3.97 0 0.5750 8.297 67.0 2.4216 5 264 13.0 384.54 7.44 50

284 0.01501 90 1.21 1 0.4010 7.923 24.8 5.8850 1 198 13.6 395.52 3.16 50

369 4.89822 0 18.10 0 0.6310 4.970 100.0 1.3325 24 666 20.2 375.52 3.26 50

370 5.66998 0 18.10 1 0.6310 6.683 96.8 1.3567 24 666 20.2 375.33 3.73 50

371 6.53876 0 18.10 1 0.6310 7.016 97.5 1.2024 24 666 20.2 392.05 2.96 50

372 9.23230 0 18.10 0 0.6310 6.216 100.0 1.1691 24 666 20.2 366.15 9.53 50

373 8.26725 0 18.10 1 0.6680 5.875 89.6 1.1296 24 666 20.2 347.88 8.88 50

> boston=Boston[-i,] #최대값 50인 관측치 16개를 찾아 제거

> boston$chas = factor(boston$chas) #범주형으로 변경

> boston$rad = factor(boston$rad) #범주형으로 변경

> table(boston$rad)

1 2 3 4 5 6 7 8 24

19 24 37 108 109 26 17 23 127

> boston$chas <- as.factor(boston$chas)

> boston$rad <- as.factor(boston$rad)

> class(boston$rad);class(boston$chas)
[1] "factor"
[1] "factor"

[참고] 아래와 같은 방법으로 이용하면 모든 변수를 수치로 변경할 수 있다.

> for(i in 1:ncol(boston))if(!is.numeric(boston[,i])) boston[,i]=as.numeric(boston[,i])
> str(boston)
'data.frame':   490 obs. of 14 variables:
$ crim   : num 0.00632 0.02731 0.02729 0.03237 0.06905 ...
$ zn     : num 18 0 0 0 0 0 12.5 12.5 12.5 12.5 ...
$ indus : num 2.31 7.07 7.07 2.18 2.18 2.18 7.87 7.87 7.87 7.87 ...
$ chas   : num 1 1 1 1 1 1 1 1 1 1 ...
$ nox    : num 0.538 0.469 0.469 0.458 0.458 0.458 0.524 0.524 0.524 0.524 ...
$ rm     : num 6.58 6.42 7.18 7 7.15 ...
$ age    : num 65.2 78.9 61.1 45.8 54.2 58.7 66.6 96.1 100 85.9 ...
$ dis    : num 4.09 4.97 4.97 6.06 6.06 ...
$ rad    : num 1 2 2 3 3 3 5 5 5 5 ...
$ tax    : num 296 242 242 222 222 222 311 311 311 311 ...
$ ptratio: num 15.3 17.8 17.8 18.7 18.7 18.7 15.2 15.2 15.2 15.2 ...
$ black : num 397 397 393 395 397 ...
$ lstat : num 4.98 9.14 4.03 2.94 5.33 ...
$ medv   : num 24 21.6 34.7 33.4 36.2 28.7 22.9 27.1 16.5 18.9 ...

2. 선형 회귀 모형 만들기

#선형회귀모형 만들기

> fit1 = lm(medv~.,data=boston) #목표변수 = medv, 선형회귀모형 함수, ~.는 목표 변수를 제외한 모든 변수를 입력변수로 사용

> summary(fit1)

Call:

lm(formula = medv ~ ., data = boston)

Residuals:

Min 1Q Median 3Q Max

-9.5220 -2.2592 -0.4275 1.6778 15.2894

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 30.120918 4.338656 6.942 1.29e-11 ***

crim -0.105648 0.025640 -4.120 4.47e-05 ***

zn 0.044104 0.011352 3.885 0.000117 ***

indus -0.046743 0.051044 -0.916 0.360274

chas1 0.158802 0.736742 0.216 0.829435

nox -11.576589 3.084187 -3.754 0.000196 ***

rm 3.543733 0.356605 9.937 < 2e-16 ***

age -0.026082 0.010531 -2.477 0.013613 *

dis -1.282095 0.160452 -7.991 1.05e-14 ***

rad2 2.548109 1.175012 2.169 0.030616 *

rad3 4.605849 1.064492 4.327 1.85e-05 ***

rad4 2.663393 0.950747 2.801 0.005299 **

rad5 3.077800 0.962725 3.197 0.001483 **

rad6 1.314892 1.157689 1.136 0.256624

rad7 4.864208 1.241760 3.917 0.000103 ***

rad8 5.772296 1.194221 4.834 1.82e-06 ***

rad24 6.195415 1.417826 4.370 1.53e-05 ***

tax -0.009396 0.003070 -3.061 0.002333 **

ptratio -0.828498 0.114436 -7.240 1.85e-12 ***

black 0.007875 0.002084 3.779 0.000178 ***

lstat -0.354606 0.041901 -8.463 3.36e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.671 on 469 degrees of freedom

Multiple R-squared: 0.7911, Adjusted R-squared: 0.7821

F-statistic: 88.78 on 20 and 469 DF, p-value: < 2.2e-16

또는 아래와 같은 방법도 가능하다

> names(boston)
[1] "crim" "zn" "indus" "chas" "nox" "rm" "age"
[8] "dis" "rad" "tax" "ptratio" "black" "lstat" "medv"
> bn <- names(boston)

> f <- as.formula(paste('medv~',paste(bn[!bn %in% 'medv'],collapse='+')))
> f
medv ~ crim + zn + indus + chas + nox + rm + age + dis + rad +
tax + ptratio + black + lstat
> fit2 <- lm(f,data=boston)
> summary(fit2)

Call:
lm(formula = f, data = boston)

Residuals:
Min 1Q Median 3Q Max
-9.5220 -2.2592 -0.4275 1.6778 15.2894

Coefficients:
              Estimate Std. Error t value Pr(>|t|)
(Intercept) 30.120918   4.338656   6.942 1.29e-11 ***
crim         -0.105648   0.025640 -4.120 4.47e-05 ***
zn            0.044104   0.011352   3.885 0.000117 ***
indus        -0.046743   0.051044 -0.916 0.360274
chas2         0.158802   0.736742   0.216 0.829435
nox         -11.576589   3.084187 -3.754 0.000196 ***
rm            3.543733   0.356605   9.937 < 2e-16 ***
age          -0.026082   0.010531 -2.477 0.013613 *
dis          -1.282095   0.160452 -7.991 1.05e-14 ***
rad2          2.548109   1.175012   2.169 0.030616 *
rad3          4.605849   1.064492   4.327 1.85e-05 ***
rad4          2.663393   0.950747   2.801 0.005299 **
rad5          3.077800   0.962725   3.197 0.001483 **
rad6          1.314892   1.157689   1.136 0.256624
rad7          4.864208   1.241760   3.917 0.000103 ***
rad8          5.772296   1.194221   4.834 1.82e-06 ***
rad9          6.195415   1.417826   4.370 1.53e-05 ***
tax          -0.009396   0.003070 -3.061 0.002333 **
ptratio      -0.828498   0.114436 -7.240 1.85e-12 ***
black         0.007875   0.002084   3.779 0.000178 ***
lstat        -0.354606   0.041901 -8.463 3.36e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.671 on 469 degrees of freedom
Multiple R-squared: 0.7911, Adjusted R-squared: 0.7821
F-statistic: 88.78 on 20 and 469 DF, p-value: < 2.2e-16

#가장 적절한 모형 선택 위한 변수 선택

> fit.step = step(fit1,direction='both') #both는 단계적 선택법 적용

Start: AIC=1295.03

medv ~ crim + zn + indus + chas + nox + rm + age + dis + rad +

tax + ptratio + black + lstat

Df Sum of Sq RSS AIC

- chas 1 0.63 6321.5 1293.1

- indus 1 11.30 6332.2 1293.9

<none> 6320.9 1295.0

- age 1 82.67 6403.5 1299.4

- tax 1 126.28 6447.1 1302.7

- nox 1 189.88 6510.7 1307.5

- black 1 192.42 6513.3 1307.7

- zn 1 203.44 6524.3 1308.5

- crim 1 228.82 6549.7 1310.5

- rad 8 721.85 7042.7 1332.0

- ptratio 1 706.41 7027.3 1344.9

- dis 1 860.51 7181.4 1355.6

- lstat 1 965.26 7286.1 1362.7

- rm 1 1330.92 7651.8 1386.7

Step: AIC=1293.08

medv ~ crim + zn + indus + nox + rm + age + dis + rad + tax +

ptratio + black + lstat

Df Sum of Sq RSS AIC

- indus 1 11.00 6332.5 1291.9

<none> 6321.5 1293.1

+ chas 1 0.63 6320.9 1295.0

- age 1 82.48 6404.0 1297.4

- tax 1 130.45 6451.9 1301.1

- nox 1 189.27 6510.8 1305.5

- black 1 193.59 6515.1 1305.9

- zn 1 203.76 6525.2 1306.6

- crim 1 230.58 6552.1 1308.6

- rad 8 738.26 7059.8 1331.2

- ptratio 1 719.40 7040.9 1343.9

- dis 1 861.64 7183.1 1353.7

- lstat 1 965.11 7286.6 1360.7

- rm 1 1333.37 7654.9 1384.9

Step: AIC=1291.93

medv ~ crim + zn + nox + rm + age + dis + rad + tax + ptratio +

black + lstat

Df Sum of Sq RSS AIC

<none> 6332.5 1291.9

+ indus 1 11.00 6321.5 1293.1

+ chas 1 0.32 6332.2 1293.9

- age 1 81.09 6413.6 1296.2

- tax 1 192.78 6525.3 1304.6

- black 1 196.55 6529.0 1304.9

- zn 1 220.63 6553.1 1306.7

- crim 1 225.50 6558.0 1307.1

- nox 1 239.09 6571.6 1308.1

- rad 8 791.09 7123.6 1333.6

- ptratio 1 732.81 7065.3 1343.6

- dis 1 857.27 7189.8 1352.1

- lstat 1 987.73 7320.2 1361.0

- rm 1 1380.21 7712.7 1386.5

> summary(fit.step) #최종모형, rad는 범주형 변수를 가변수로 변환한 것.#AIC가 가장 작은 변수가 단계적 선택법에 의해 변수들이 정의 됨

Call:

lm(formula = medv ~ crim + zn + nox + rm + age + dis + rad +

tax + ptratio + black + lstat, data = boston)

Residuals:

Min 1Q Median 3Q Max

-9.5200 -2.2850 -0.4688 1.7535 15.3972

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 30.252522 4.329907 6.987 9.64e-12 ***

crim -0.104568 0.025533 -4.095 4.96e-05 ***

zn 0.045510 0.011235 4.051 5.97e-05 ***

nox -12.366882 2.932651 -4.217 2.97e-05 ***

rm 3.583130 0.353644 10.132 < 2e-16 ***

age -0.025822 0.010514 -2.456 0.014412 *

dis -1.253903 0.157029 -7.985 1.08e-14 ***

rad2 2.387130 1.160735 2.057 0.040278 *

rad3 4.644091 1.062157 4.372 1.51e-05 ***

rad4 2.608777 0.944668 2.762 0.005977 **

rad5 3.116933 0.960550 3.245 0.001258 **

rad6 1.422890 1.150280 1.237 0.216705

rad7 4.868388 1.240114 3.926 9.94e-05 ***

rad8 5.872144 1.180865 4.973 9.26e-07 ***

rad24 6.420553 1.393304 4.608 5.24e-06 ***

tax -0.010571 0.002792 -3.787 0.000172 ***

ptratio -0.837356 0.113420 -7.383 7.08e-13 ***

black 0.007949 0.002079 3.823 0.000149 ***

lstat -0.357576 0.041718 -8.571 < 2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.667 on 471 degrees of freedom

Multiple R-squared: 0.7907, Adjusted R-squared: 0.7827

F-statistic: 98.83 on 18 and 471 DF, p-value: < 2.2e-16

-> 결과 해석: 최초 만든 회귀함수 fit1 = lm(medv~.,data=boston)에서, 가장 적절한 모형 선택 위한 변수 선택을 위해 step 함수를 사용한다. fit.step = step(fit1,direction='both') 이 함수에서 both는 단계적 선택법 적용을 의미한다. 결과적으로 lm(formula = medv ~ crim + zn + nox + rm + age + dis + rad + tax + ptratio + black + lstat, data = boston)라는 모형이 만들어졌고, 최초 만든 모형 대비 indus, chas1 변수가 사라졌음을 알 수 있다. 또한 최종 모형에서 범주 rad2,3,4 등은 범주형 범수 중 특정 변수를 의미한다.

입력변수 crim의 회귀계수 추정치는 음수이므로 crim이 증가함에 따라 목표변수medv는 감소한다. nox 변수의 회귀곗수는 -12인데, nox 변수가 올라갈 때 마다 medv 값은 내려간다. nox 변수는 10ppm당 농축 일산화질소를 뜻한다.

rad변수는 9개 범주로 구성되어 있기 때문에 8개의 가변수가 생성되었다. 각 입력 변수의 t값의 절대값으 커서 대응하는 p-값은 0.05보다 작아서 유의하다고 할 수 있다. 단, rad6는 유의하지 않지만 다른 가변수가 유의하므로 제거되지 않고 여전히 모형에 포함된다.

R²은 79.07%로 적합한 선형 회귀모형으로 데이터를 설명할 수 있는 부분이 약 80%로 높고, F-검정의 p-value도 2.2e-16로 아주 작은 것도 모형이 적합하다는 것을 지지하다.

[참고] 단계적선택법(stepwise selection)의 AIC는 1291.93이다. 후진소거법과 전친선택법은??

후진소거법(backward elimination)의 AIC는 1291.93

> fit.step.back = step(fit1,direction='backward')

Start: AIC=1295.03

medv ~ crim + zn + indus + chas + nox + rm + age + dis + rad +

tax + ptratio + black + lstat

Df Sum of Sq RSS AIC

- chas 1 0.63 6321.5 1293.1

- indus 1 11.30 6332.2 1293.9

<none> 6320.9 1295.0

- age 1 82.67 6403.5 1299.4

- tax 1 126.28 6447.1 1302.7

- nox 1 189.88 6510.7 1307.5

- black 1 192.42 6513.3 1307.7

- zn 1 203.44 6524.3 1308.5

- crim 1 228.82 6549.7 1310.5

- rad 8 721.85 7042.7 1332.0

- ptratio 1 706.41 7027.3 1344.9

- dis 1 860.51 7181.4 1355.6

- lstat 1 965.26 7286.1 1362.7

- rm 1 1330.92 7651.8 1386.7

Step: AIC=1293.08

medv ~ crim + zn + indus + nox + rm + age + dis + rad + tax +

ptratio + black + lstat

Df Sum of Sq RSS AIC

- indus 1 11.00 6332.5 1291.9

<none> 6321.5 1293.1

- age 1 82.48 6404.0 1297.4

- tax 1 130.45 6451.9 1301.1

- nox 1 189.27 6510.8 1305.5

- black 1 193.59 6515.1 1305.9

- zn 1 203.76 6525.2 1306.6

- crim 1 230.58 6552.1 1308.6

- rad 8 738.26 7059.8 1331.2

- ptratio 1 719.40 7040.9 1343.9

- dis 1 861.64 7183.1 1353.7

- lstat 1 965.11 7286.6 1360.7

- rm 1 1333.37 7654.9 1384.9

Step: AIC=1291.93

medv ~ crim + zn + nox + rm + age + dis + rad + tax + ptratio +

black + lstat

Df Sum of Sq RSS AIC

<none> 6332.5 1291.9

- age 1 81.09 6413.6 1296.2

- tax 1 192.78 6525.3 1304.6

- black 1 196.55 6529.0 1304.9

- zn 1 220.63 6553.1 1306.7

- crim 1 225.50 6558.0 1307.1

- nox 1 239.09 6571.6 1308.1

- rad 8 791.09 7123.6 1333.6

- ptratio 1 732.81 7065.3 1343.6

- dis 1 857.27 7189.8 1352.1

- lstat 1 987.73 7320.2 1361.0

- rm 1 1380.21 7712.7 1386.5

> summary(fit.step.back )

Call:

lm(formula = medv ~ crim + zn + nox + rm + age + dis + rad +

tax + ptratio + black + lstat, data = boston)

Residuals:

Min 1Q Median 3Q Max

-9.5200 -2.2850 -0.4688 1.7535 15.3972

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 30.252522 4.329907 6.987 9.64e-12 ***

crim -0.104568 0.025533 -4.095 4.96e-05 ***

zn 0.045510 0.011235 4.051 5.97e-05 ***

nox -12.366882 2.932651 -4.217 2.97e-05 ***

rm 3.583130 0.353644 10.132 < 2e-16 ***

age -0.025822 0.010514 -2.456 0.014412 *

dis -1.253903 0.157029 -7.985 1.08e-14 ***

rad2 2.387130 1.160735 2.057 0.040278 *

rad3 4.644091 1.062157 4.372 1.51e-05 ***

rad4 2.608777 0.944668 2.762 0.005977 **

rad5 3.116933 0.960550 3.245 0.001258 **

rad6 1.422890 1.150280 1.237 0.216705

rad7 4.868388 1.240114 3.926 9.94e-05 ***

rad8 5.872144 1.180865 4.973 9.26e-07 ***

rad9 6.420553 1.393304 4.608 5.24e-06 ***

tax -0.010571 0.002792 -3.787 0.000172 ***

ptratio -0.837356 0.113420 -7.383 7.08e-13 ***

black 0.007949 0.002079 3.823 0.000149 ***

lstat -0.357576 0.041718 -8.571 < 2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.667 on 471 degrees of freedom

Multiple R-squared: 0.7907, Adjusted R-squared: 0.7827

F-statistic: 98.83 on 18 and 471 DF, p-value: < 2.2e-16

[참고] 전진선택법(forward selection)의 AIC는 1295.03

> fit.step.forward = step(fit1,direction='forward')

Start: AIC=1295.03

medv ~ crim + zn + indus + chas + nox + rm + age + dis + rad +

tax + ptratio + black + lstat

> summary(fit.step.forward)

Call:

lm(formula = medv ~ crim + zn + indus + chas + nox + rm + age +

dis + rad + tax + ptratio + black + lstat, data = boston)

Residuals:

Min 1Q Median 3Q Max

-9.5220 -2.2592 -0.4275 1.6778 15.2894

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 30.120918 4.338656 6.942 1.29e-11 ***

crim -0.105648 0.025640 -4.120 4.47e-05 ***

zn 0.044104 0.011352 3.885 0.000117 ***

indus -0.046743 0.051044 -0.916 0.360274

chas2 0.158802 0.736742 0.216 0.829435

nox -11.576589 3.084187 -3.754 0.000196 ***

rm 3.543733 0.356605 9.937 < 2e-16 ***

age -0.026082 0.010531 -2.477 0.013613 *

dis -1.282095 0.160452 -7.991 1.05e-14 ***

rad2 2.548109 1.175012 2.169 0.030616 *

rad3 4.605849 1.064492 4.327 1.85e-05 ***

rad4 2.663393 0.950747 2.801 0.005299 **

rad5 3.077800 0.962725 3.197 0.001483 **

rad6 1.314892 1.157689 1.136 0.256624

rad7 4.864208 1.241760 3.917 0.000103 ***

rad8 5.772296 1.194221 4.834 1.82e-06 ***

rad9 6.195415 1.417826 4.370 1.53e-05 ***

tax -0.009396 0.003070 -3.061 0.002333 **

ptratio -0.828498 0.114436 -7.240 1.85e-12 ***

black 0.007875 0.002084 3.779 0.000178 ***

lstat -0.354606 0.041901 -8.463 3.36e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.671 on 469 degrees of freedom

Multiple R-squared: 0.7911, Adjusted R-squared: 0.7821

F-statistic: 88.78 on 20 and 469 DF, p-value: < 2.2e-16

3. 어떤 변수들이 제거 되었을까?

> fit.all = lm(medv~.,data=boston)

> fit.step = step(fit.all, direction = "both")

Start: AIC=1295.03

medv ~ crim + zn + indus + chas + nox + rm + age + dis + rad +

tax + ptratio + black + lstat

Df Sum of Sq RSS AIC

- chas 1 0.63 6321.5 1293.1

- indus 1 11.30 6332.2 1293.9

<none> 6320.9 1295.0

- age 1 82.67 6403.5 1299.4

- tax 1 126.28 6447.1 1302.7

- nox 1 189.88 6510.7 1307.5

- black 1 192.42 6513.3 1307.7

- zn 1 203.44 6524.3 1308.5

- crim 1 228.82 6549.7 1310.5

- rad 8 721.85 7042.7 1332.0

- ptratio 1 706.41 7027.3 1344.9

- dis 1 860.51 7181.4 1355.6

- lstat 1 965.26 7286.1 1362.7

- rm 1 1330.92 7651.8 1386.7

Step: AIC=1293.08

medv ~ crim + zn + indus + nox + rm + age + dis + rad + tax +

ptratio + black + lstat

Df Sum of Sq RSS AIC

- indus 1 11.00 6332.5 1291.9

<none> 6321.5 1293.1

+ chas 1 0.63 6320.9 1295.0

- age 1 82.48 6404.0 1297.4

- tax 1 130.45 6451.9 1301.1

- nox 1 189.27 6510.8 1305.5

- black 1 193.59 6515.1 1305.9

- zn 1 203.76 6525.2 1306.6

- crim 1 230.58 6552.1 1308.6

- rad 8 738.26 7059.8 1331.2

- ptratio 1 719.40 7040.9 1343.9

- dis 1 861.64 7183.1 1353.7

- lstat 1 965.11 7286.6 1360.7

- rm 1 1333.37 7654.9 1384.9

Step: AIC=1291.93

medv ~ crim + zn + nox + rm + age + dis + rad + tax + ptratio +

black + lstat

Df Sum of Sq RSS AIC

<none> 6332.5 1291.9

+ indus 1 11.00 6321.5 1293.1

+ chas 1 0.32 6332.2 1293.9

- age 1 81.09 6413.6 1296.2

- tax 1 192.78 6525.3 1304.6

- black 1 196.55 6529.0 1304.9

- zn 1 220.63 6553.1 1306.7

- crim 1 225.50 6558.0 1307.1

- nox 1 239.09 6571.6 1308.1

- rad 8 791.09 7123.6 1333.6

- ptratio 1 732.81 7065.3 1343.6

- dis 1 857.27 7189.8 1352.1

- lstat 1 987.73 7320.2 1361.0

- rm 1 1380.21 7712.7 1386.5

> names(fit.step)
[1] "coefficients" "residuals"     "effects"       "rank"
[5] "fitted.values" "assign"        "qr"            "df.residual"
[9] "contrasts"     "xlevels"       "call"          "terms"
[13] "model"         "anova"

> fit.step$anova #최종모형에서 제거된 변수를 알 수 있다.

Step Df Deviance Resid. Df Resid. Dev AIC

1 NA NA 469 6320.865 1295.031

2 - chas 1 0.6261633 470 6321.491 1293.079

3 - indus 1 10.9964825 471 6332.487 1291.931

-> 해석: fit.step$anova라는 함수를 통해 최종 모형에서 제거된 변수를 알 수 있다. 여러 후보 모형 중에서 AIC가 가장 작은 모형을 선택하게 되는데, 여기서는 chas와 indus가 제거되었음을 일목요연하게 알 수 있다.

4. 목표 예측값을 알아보자

> yhat=predict(fit.step,newdata=boston,type='response') #목표값 예측 시, type='response'

> head(yhat) #예측된 값 산출

1 2 3 4 5 6

26.59831 24.00195 28.99396 29.60018 29.07676 26.41636

> plot(fit.step$fitted,boston$medv, xlim=c(0,50),ylim=c(0,50),xlab="Fitted",ylab="Observed")#실제값과 가까운지 평가

> abline(a=0,b=1) # or abline(0,1)

> mean((boston$medv-yhat)^2) #MSE

[1] 12.92344

-> 함수 predict 는 다양한 모형 적합결과로부터 예측값을 계산할 때 사용하고, 이중 type

옵션은 예측 형태를 입력하는 것으로, 목표값을 예측할 때 ‘response’를 사용한다.

-> 목표변수가 연속형인 경우에 모형의 예측력 측도로서 MSE(mean squared error)를 주로 사용한다. 관측치(yi)와 예측치 Ŷi의 차이가 적을수록 그 모형의 예측력은 높다고 할 수 있다. 이를 시각적으로 확인하기 위해서는 이들을 가로축 및 세로축에 놓고 그린 산점도가 45도 대각선을 중심으로 모여 있으면 예측력이 좋다고 할 수 있다.

출처: 데이터마이닝(장영재, 김현중, 조형준 공저)

'KNOU > 2 데이터마이닝' 카테고리의 다른 글

제3장 나무모형 - 회귀나무모형 (0)	2016.10.26
제3장 나무모형 - 분류나무모형 (4)	2016.10.18
제2장 회귀모형 - 로지스틱 회귀모형 연습 (0)	2016.09.14
제2장 회귀모형 - 선형회귀, 로지스틱회귀 (0)	2016.09.14
1장 데이터과학과 데이터마이닝 (0)	2016.08.26

Posted by 마르띤

,

데이터마이너를 꿈꾸며 데이터 분석과 외국어 공부에 관심이 많습니다. 공부한 내용을 기억하고 나누고 싶어 블로그를 운영합니다.

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

데이터마이너를 꿈꾸며

'LM'에 해당되는 글 3건

6장 - 중회귀분석 : 집객효과가 가장 큰 광고의 조합은 무엇인가?

'Python, R 분석과 프로그래밍 > 비지니스 활용 사례로 배우는 데이터 분석 : R' 카테고리의 다른 글

제3장 연속형 자료의 분석 - 3.2 여러집단의 비교 ANOVA

'KNOU > 2 보건 정보 데이터 분석' 카테고리의 다른 글

제2장 회귀모형 - 선형회귀 연습

'KNOU > 2 데이터마이닝' 카테고리의 다른 글

링크

카테고리

최근에 올라온 글

최근에 받은 트랙백

글 보관함

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역