반응형

[] 어떤 약물에 대한 체내 배출연구에서 얻은 자료이다. 연구자는 약의 형태에 따라 체내로부터 배출되는 약물의 양이 달라지는지를 알고자 한다. 그런데 배출되는 약물의 양은 약의 형태뿐만 아니라 배출된 약물을 측정한 시간과 개체의 항신진대사 점수에도 영향을 받을 것으로 생각한다. 이러한 경우에는 측정시간과 항신진대사 점수를 2개의 공변량으로 하여 이들을 제어한 약의 형태에 대한 효과를 공분산분석을 통해 있다.

 

관측번호

약의형태(trt)

항신진대사점수(x1)

소요시간(x2)

약물량(y)

1

1

37

61

11.3208

2

2

37

37

12.9151

3

3

45

53

18.8947

 

공변량이 2 이상인 경우에는 공변량이 하나인 경우의 모형을 그대로 확장해서 모수의 추정과 검정을 있다.

 

<공분산분석을 위한 가지 가정>

1) 처리 안에서 반응변수Y 미치는 공변량x 효과가 모두 동일해야 한다. , 회귀계수가 모든 약의 형태에 대해서 동일해야 하며, 교호작용이 없어야 한다.

2) 공변량효과가 0 아니다. 효과가 0이라면 분산분석을 하면 된다.

 

2. 공분산분석에서의 검정

1) H0: β1 = 0 항신진대사의 효과가 없음

2) H0: β2 = 0 소요시간의 효과가 없음

 

이상 2개의 공변량 효과를 제어한 배출된 약물량의 모평균이 약의 형태type 따라 차이가 있는가를 검정할 있는데, 이를 검정하기 위한 귀무가설은 아래와 같다.

 

3) H0 : α1 = α2 = ... = αI

 

 

 

 

1. library 호출 데이터 불러오기

> library(lsmeans)

> setwd('C:/Rwork')

> drug  = read.csv('약물배출량자료.csv')

> head(drug)

  관측번호 약형태 항신진대사점수 소요시간  약물량

1        1      1             37       61 11.3208

2        2      2             37       37 12.9151

3        3      3             45       53 18.8947

4        4      4             41       41 14.6739

5        5      5             57       41  8.6493

6        6      6             49       33  9.5238

> colname<-c('obs','type','x1','x2','y')

> colnames(drug)<-colname

> head(drug)

  obs type x1 x2       y

1   1    1 37 61 11.3208

2   2    2 37 37 12.9151

3   3    3 45 53 18.8947

4   4    4 41 41 14.6739

5   5    5 57 41  8.6493

6   6    6 49 33  9.5238

> attach(drug)

 

 

 

 

 

2. 회귀계수의 동일성 검정(교호작용 존재 확인)

공분산 분석을 위한 중요한 가정으로 교호작용이 존재하는지 점검한다. 교호작용이 존재하면 공분산분석이 아닌 분산분석을 실시한다.

> model1 = aov(y~factor(type) + factor(type)*x1 + factor(type)*x2 , data = drug)

> summary(model1)

                Df Sum Sq Mean Sq F value  Pr(>F)   

factor(type)     5  250.3    50.1   2.099   0.113   

x1               1  696.6   696.6  29.206 3.9e-05 ***

x2               1   54.4    54.4   2.282   0.148   

factor(type):x1  5  160.8    32.2   1.349   0.289   

factor(type):x2  5   42.3     8.5   0.355   0.872   

Residuals       18  429.3    23.9                   

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘

-> 공변량이 2 이므로 우변에 * 형태로 입력

귀무가설 H0 : 교호작용이 존재하지 않는다.

대립가설 H1 : 교호작용이 존재한다.

p-value: x1 항신진대사점수 – 0.289

x2 소요시간 – 0.872

의사결정: 유의수준 5% 하에서 귀무가설을 기각할 없다.

결론: 공변량(항신진대사점수, 소요시간) 약의 형태 사이에 교호작용이 존재하지 않으므로 공분산분석을 있다. ( = 처리 안에서 반응변수Y 미치는 공변량x 효과가 모두 동일하다.)

 

 

 

 

3. 이원공분산분석 (Two-way ANOVA)

> model2 = aov(y~factor(type) + x1 + x2, data=drug)

> summary(model2)

             Df Sum Sq Mean Sq F value   Pr(>F)   

factor(type)  5  250.3    50.1   2.216   0.0808 . 

x1            1  696.6   696.6  30.837 6.13e-06 ***

x2            1   54.4    54.4   2.409   0.1319   

Residuals    28  632.5    22.6                    

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

-> 2개의 공변량을 보정하지 않았을 때의 F-값과 p값은 각각 2.216, 0.0808으로 유의수준 5%하에서 유의하지 않다.

귀무가설 H0 : α1 = α2 = ... = αI

대립가설 H1 : 최소한 하나 이상의 약은 효과가 있다.

p-value: 0.0808

의사결정: 유의수준 5% 하에서 귀무가설을 기각할 없다.

결론: 약의 형태에 따라 배출된 약물량의 차이가 없다.

 

 

3-1. 공변량 효과 제어 치료법의 효과 검정

> model3 = lm(y~factor(type) + x1 + x2, data=drug)

> summary(model3)

 

Call:

lm(formula = y ~ factor(type) + x1 + x2, data = drug)

 

Residuals:

   Min     1Q Median     3Q    Max

-7.222 -2.634 -0.379  1.475  9.646

 

Coefficients:

              Estimate Std. Error t value Pr(>|t|)   

(Intercept)    36.6370     8.9591   4.089 0.000331 ***

factor(type)2   0.8965     2.7823   0.322 0.749677   

factor(type)3   7.9097     2.7684   2.857 0.007973 **

factor(type)4   3.0722     2.8247   1.088 0.286025   

factor(type)5   9.5434     2.8534   3.345 0.002355 **

factor(type)6   5.8389     2.8391   2.057 0.049149 * 

x1             -0.7606     0.1375  -5.531 6.51e-06 ***

x2              0.1647     0.1061   1.552 0.131868   

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

 

Residual standard error: 4.753 on 28 degrees of freedom

Multiple R-squared:  0.6129,    Adjusted R-squared:  0.5161

F-statistic: 6.332 on 7 and 28 DF,  p-value: 0.0001641

 

 

귀무가설 H0 : β1 = β2 =  0  공변량(항신진대사, 소요시간) 효과가 없음

        H0 : α1 = α2 = ... = αI

대립가설 not H0

p-value : 0.0001641

의사결정: 귀무가설을 강하게 기각한다. 5% 유의수준 하에서 매우 유의하다.

결론: 우리가 세운 모형의 자료에 적합하다는 것을 있다. 배출된 약물량의 모평균이 형태type 효과와 공변량들의 효과가 없다라고 말할 없다.

 

 

 

4. 공변량 효과 제어시 치료법의 효과 검정 - 모형 제곱합 

1)1 제곱합(Type I SS): SS(type)

> model2 = aov(y~factor(type) + x1 + x2, data=drug)

> summary(model2)

             Df Sum Sq Mean Sq F value   Pr(>F)   

factor(type)  5  250.3    50.1   2.216   0.0808 . 

x1            1  696.6   696.6  30.837 6.13e-06 ***

x2            1   54.4    54.4   2.409   0.1319   

Residuals    28  632.5    22.6                    

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

 

OR

 

> summary(aov(y~factor(type)+x1+x2,data=drug))

             Df Sum Sq Mean Sq F value   Pr(>F)   

factor(type)  5  250.3    50.1   2.216   0.0808 . 

x1            1  696.6   696.6  30.837 6.13e-06 ***

x2            1   54.4    54.4   2.409   0.1319   

Residuals    28  632.5    22.6                    

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’

-> 결과해석: 약의 형태type 기여한 1 제공합의 p-value 0.0808 유의수준 5%하에서 유의하지 않다.

 

 

2)3 제곱합(Type III SS): SS(type | x1, x2)

> summary(aov(y~x1+x2+factor(type),data=drug))

             Df Sum Sq Mean Sq F value   Pr(>F)   

x1            1  516.5   516.5  22.867 5.03e-05 ***

x2            1   62.8    62.8   2.779   0.1067   

factor(type)  5  422.0    84.4   3.736   0.0102 * 

Residuals    28  632.5    22.6                    

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘

-> 결과해석: x1,2 given type, 공변량x1,x2 기여한 상태에서 순수하게 약의 형태type 기여한 3 제공합의 p-value 0.0102 유의수준 5%하에서 유의하다.

 

 

5. 수준 추정치를 알아보자. 

> model3 = lm(y~factor(type) + x1 + x2, data=drug)

> summary(model3)

 

Call:

lm(formula = y ~ factor(type) + x1 + x2, data = drug)

 

Residuals:

   Min     1Q Median     3Q    Max

-7.222 -2.634 -0.379  1.475  9.646

 

Coefficients:

              Estimate Std. Error t value Pr(>|t|)   

(Intercept)    36.6370     8.9591   4.089 0.000331 ***

factor(type)2   0.8965     2.7823   0.322 0.749677   

factor(type)3   7.9097     2.7684   2.857 0.007973 **

factor(type)4   3.0722     2.8247   1.088 0.286025   

factor(type)5   9.5434     2.8534   3.345 0.002355 **

factor(type)6   5.8389     2.8391   2.057 0.049149 * 

x1             -0.7606     0.1375  -5.531 6.51e-06 ***

x2              0.1647     0.1061   1.552 0.131868   

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

 

Residual standard error: 4.753 on 28 degrees of freedom

Multiple R-squared:  0.6129,    Adjusted R-squared:  0.5161

F-statistic: 6.332 on 7 and 28 DF,  p-value: 0.0001641

-> 출력결과 유의하게 나타나는 것은 3,5,번째 약의 형태의 추정치들이 번째 약의 형태와의 차이를 타나내는데 p-값이 유의수준 5% 하에서 유의하다. 항신진대사 점수(x1) p 값이 <0.0001 유의수준 5%하에서 매우 유의하지만 약의 배출 소요시간(x2) p 값이 0.131868 유위수준 5%하에서 유의하지 않은 것으로 나타났다. 위의 출력 결과를 바탕으로 약의 형태별 공분산모형식을 쓰면 다음과 같다.

 

ŷ1j = β^0 + α^1 + β^1x11j  + β^2x21j  = 36.637 + 0 - 0.761 x11j + 0.165x21j

ŷ2j = β^0 + α^2 + β^1x12j  + β^2x21j = 36.637 + 0.897- 0.761 x12j + 0.165x22j

ŷ3j = β^0 + α^3 + β^1x13j  + β^2x21j = 36.637 + 7.908 - 0.761 x13j + 0.165x23j

ŷ4j = β^0 + α^4 + β^1x14j  + β^2x21j = 36.637 + 3.072 - 0.761 x14j + 0.165x24j

ŷ5j = β^0 + α^5 + β^1x15j  + β^2x21j = 36.637 +9.544 - 0.761 x15j + 0.165x25j

ŷ6j = β^0 + α^6 + β^1x16j  + β^2x26j = 36.637 + 5.839 - 0.761 x16j + 0.165x26j

 

 

위의 식에 나타난 회귀식의 추정결과 모든 약의 형태에 대해서 항신진대사 점수(x1) 약의 배출 소요시간(x2) 회귀계수는 동일하다. 약의 배출 소요시간을 제어한 항신진대사 점수의 효과를 보면 항신진대사 점수가 1단위 높아짐에 따라 약의 배출량은 0.761만큼 감소하고 통계적으로 유의한 효과가 있고, 항신진대사 점수를 제어한 약의 배출 소요시간은 1단위 증가할수록 0.165만큼 증가하지만 효과는 유의하지 않다

 

 

 6. LSMEANS(Adjusted means) 계산

> lsmeans(model3,~type)

 type    lsmean       SE df  lower.CL  upper.CL

    1  5.674385 1.991087 28  1.595828  9.752942

    2  6.570912 1.946518 28  2.583650 10.558174

    3 13.584122 1.969292 28  9.550210 17.618034

    4  8.746633 1.955440 28  4.741095 12.752171

    5 15.217831 1.987611 28 11.146394 19.289268

    6 11.513284 1.980761 28  7.455879 15.570690

 

Confidence level used: 0.95

-> 약의 형태에 대한 LSMEAN(보정된 평균)값이 출력되어 있다. 보정된 평균은 항신진대사 점수x1 소요시간x2 효과를 제어했을 반응변수Y 배출되는 약물량의 평균값이다. 앞의 식에서 약의 형태의 회귀식의 공변량값에 전체 평균값을 넣어서 약의 형태별 보정된 평균(adjusted mean) 아래 식과 같이 계산할 있다.

 

y barad1 = 36.387 + 0 – 0.761*51.22 + 0.165*48.56 = 5.67

y barad2 = 36.387 + 0.897 – 0.761*51.22 + 0.165*48.56 = 6.57

y barad3 = 36.387 + 7.908 – 0.761*51.22 + 0.165*48.56 = 13.59

y barad4 = 36.387 + 3.072 – 0.761*51.22 + 0.165*48.56 = 8.75

y barad5 = 36.387 + 9.544 – 0.761*51.22 + 0.165*48.56 = 15.22

y barad6 = 36.387 + 5.839 – 0.761*51.22 + 0.165*48.56 = 11.51

 

보정된 평균값을 보면 번째와 번째 약의 형태의 보정된 평균값이 다소 작고 번째, 다섯 번째, 여섯 번째 약의 형태에 대한 보정된 평균값이 크다는 것을 있다.

 

 

6. 처리 다중비교

> model3.lsm = lsmeans(model3,pairwise ~ type, glhargs = list())

> print(model3.lsm,omit=1)

$lsmeans

 type    lsmean       SE df  lower.CL  upper.CL

    1  5.674385 1.991087 28  1.595828  9.752942

    2  6.570912 1.946518 28  2.583650 10.558174

    3 13.584122 1.969292 28  9.550210 17.618034

    4  8.746633 1.955440 28  4.741095 12.752171

    5 15.217831 1.987611 28 11.146394 19.289268

    6 11.513284 1.980761 28  7.455879 15.570690

 

Confidence level used: 0.95

 

$contrasts

 contrast   estimate       SE df t.ratio p.value

 1 - 2    -0.8965269 2.782316 28  -0.322  0.9995

 1 - 3    -7.9097368 2.768397 28  -2.857  0.0771

 1 - 4    -3.0722481 2.824671 28  -1.088  0.8822

 1 - 5    -9.5434459 2.853395 28  -3.345  0.0257

 1 - 6    -5.8388992 2.839070 28  -2.057  0.3378

 2 - 3    -7.0132099 2.783087 28  -2.520  0.1525

 2 - 4    -2.1757212 2.753630 28  -0.790  0.9669

 2 - 5    -8.6469191 2.802553 28  -3.085  0.0468

 2 - 6    -4.9423723 2.758561 28  -1.792  0.4869

 3 - 4     4.8374887 2.801787 28   1.727  0.5266

 3 - 5    -1.6337091 2.782316 28  -0.587  0.9911

 3 - 6     2.0708376 2.840329 28   0.729  0.9766

 4 - 5    -6.4711978 2.783344 28  -2.325  0.2178

 4 - 6    -2.7666511 2.753890 28  -1.005  0.9125

 5 - 6     3.7045468 2.831753 28   1.308  0.7781

 

P value adjustment: tukey method for comparing a family of 6 estimates 

 

위의 결과를 보면 약의 형태 5 경우 보정된 평균이 형태 1 2 유의하게 차이가 나는 것을 있다.

  

> names(model3.lsm)

[1] "lsmeans"   "contrasts"

 

> plot(model3.lsm[[1]])

 

 

 

> plot(model3.lsm[[2]])

 

->Tukey(HSD) 검정 결과를 신뢰구간으로 보면, 1-5, 2-5 유의함을 있다.

 

 

 

Dunnett vs Tukey

다중분석 하기 전 순서형인 type 변수를 명목형 변수로 변경

> str(drug)

'data.frame':   36 obs. of  5 variables:

 $ obs : int  1 2 3 4 5 6 7 8 9 10 ...

 $ type: int  1 2 3 4 5 6 1 2 3 4 ...

 $ x1  : int  37 37 45 41 57 49 49 53 53 53 ...

 $ x2  : int  61 37 53 41 41 33 49 53 45 53 ...

 $ y   : num  11.32 12.92 18.89 14.67 8.65 ...

 

> drug$type<-as.factor(drug$type)

> summary(drug)

      obs        type        x1              x2              y         

 Min.   : 1.00   1:6   Min.   :37.00   Min.   :33.00   Min.   : 0.0017 

 1st Qu.: 9.75   2:6   1st Qu.:49.00   1st Qu.:45.00   1st Qu.: 5.9561 

 Median :18.50   3:6   Median :53.00   Median :49.00   Median : 8.4527 

 Mean   :18.50   4:6   Mean   :51.22   Mean   :48.56   Mean   :10.2179 

 3rd Qu.:27.25   5:6   3rd Qu.:53.00   3rd Qu.:53.00   3rd Qu.:13.9175 

 Max.   :36.00   6:6   Max.   :61.00   Max.   :65.00   Max.   :28.1828 

> model4<-lm(y~type+x1+x2,data=drug)

 

다중 분석 시작

> library(multcomp)

> tukey<-glht(model4,linfct=mcp(type='Tukey'))

> summary(tukey)

 

         Simultaneous Tests for General Linear Hypotheses

 

Multiple Comparisons of Means: Tukey Contrasts

 

 

Fit: lm(formula = y ~ type + x1 + x2, data = drug)

 

Linear Hypotheses:

           Estimate Std. Error t value Pr(>|t|) 

2 - 1 == 0   0.8965     2.7823   0.322   0.9995 

3 - 1 == 0   7.9097     2.7684   2.857   0.0771 .

4 - 1 == 0   3.0722     2.8247   1.088   0.8821 

5 - 1 == 0   9.5434     2.8534   3.345   0.0257 *

6 - 1 == 0   5.8389     2.8391   2.057   0.3374 

3 - 2 == 0   7.0132     2.7831   2.520   0.1524 

4 - 2 == 0   2.1757     2.7536   0.790   0.9669 

5 - 2 == 0   8.6469     2.8026   3.085   0.0469 *

6 - 2 == 0   4.9424     2.7586   1.792   0.4867 

4 - 3 == 0  -4.8375     2.8018  -1.727   0.5265 

5 - 3 == 0   1.6337     2.7823   0.587   0.9911 

6 - 3 == 0  -2.0708     2.8403  -0.729   0.9766 

5 - 4 == 0   6.4712     2.7833   2.325   0.2178 

6 - 4 == 0   2.7667     2.7539   1.005   0.9124 

6 - 5 == 0  -3.7045     2.8318  -1.308   0.7780 

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Adjusted p values reported -- single-step method)

 

> plot(tukey)

 

 

->Tukey(HSD) 검정 결과를 신뢰구간으로 보면, 1-5, 2-5 유의함을 있다.

 

 

> dunnett <- glht(model4,linfct=mcp(type='Dunnett'))

> summary(dunnett)

 

         Simultaneous Tests for General Linear Hypotheses

 

Multiple Comparisons of Means: Dunnett Contrasts

 

 

Fit: lm(formula = y ~ type + x1 + x2, data = drug)

 

Linear Hypotheses:

           Estimate Std. Error t value Pr(>|t|) 

2 - 1 == 0   0.8965     2.7823   0.322   0.9974 

3 - 1 == 0   7.9097     2.7684   2.857   0.0324 *

4 - 1 == 0   3.0722     2.8247   1.088   0.7130 

5 - 1 == 0   9.5434     2.8534   3.345   0.0103 *

6 - 1 == 0   5.8389     2.8391   2.057   0.1733 

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Adjusted p values reported -- single-step method)

 

> plot(dunnett)

 

 

 

 

 

7. 모형 적합성 검토

> par(mfrow=c(2,2))

> plot(model3)

 

-> 등분산성, 정규성 가정에는 문제가 없음을 있다.

 

출처: 보건정보데이터 분석(이태림, 이재원, 김주한, 장대흥 공저), R 이용한 누구나 하는 통계분석(안재형 )

반응형
Posted by 마르띤
,
반응형

[당뇨병에 걸린 20명의 환자에 대해 혈당을 낮추는 서로 다른 다섯가지 치료법의 효능을 비교하고자 환자 20명을 랜덤하게 5룹으로 나누어 각각의 치료법을 적용하여 한달 후의 혈당량 수치를 측정하였다.

그러나   후의 혈당량 수치가 초기 혈당량 수치에 영향을  것으로 생각하여 초기 혈당량 

수치도함께 측정하였다

 

관측번호

치료법(trt)

x(초기수치)

y(한달 수치)

1

A

27.2

32.6

2

B

22

36.6

 

 

 

 

 

 

 

 - 독립변수: 치료법(trt)

 - 공변량: x(초기 혈당 수치)

 - 반응변수: y(한달 혈당 수치)

 - 반응변수y 모평균에 영향을 끼칠 있는 다른 변수가 존재 -> 공변량의 영향을 고려해야 .

 

1. 문제제기 - 공분산 분석의 필요성

치료법(trt) 따른 혈당이 낮아지는 효과를 알아보려 하였으나 초기수치(x) 낮은 경우 한달 수치(y) 낮아질 것으로 예상된다면, 정확한 치료법(trt) 효과를 수가 없다. 반응변수 y 영향을 끼칠 있는 다른 변수 초기수치(x) 대해 공변량(Covariate) 하고, 초기수치(x) 보정한 상태(adjusted)에서 한달 혈당량 수치의(y) 보정된 모평균에 차이가 있는지 보는 것을 공분산분석(Analysis of Covariance: ANCOVA) 한다. 공분산 분석은 회귀분석과 분산분석의 결합으로 처리안에서 공변량을 설명변수 x 하여 회귀분석을 실시하며, 이렇게 공변량을 고려하면 이를 고려하지 않은 분산분석보다 추정의 정도(precision) 높일 있다.

 

2. 공분산분석을 위한 가지 가정

1) 처리 안에서 반응변수Y 미치는 공변량x 효과가 모두 동일해야 한다. 교호작용이 없어야 한다.

2) 공변량효과가 0 아니다. 효과가 0이라면 분산분석을 하면 된다.

 

3. 공분산 모형

yij = β0 + αi + βXij + εij

 

 - Yij : i번째 처리에서 j번째 개체의 반응값

 - Xij : i번째 처리에서 j번째 개체의 공변량

 - αi : 처리의 효과

 - β : 모든 처리에 공통으로 작용하는 공변량의 효과

 - ε : 등분산을 갖는 정규분포를 따른다고 가정

 

4. 모수의 검정

 1) H01: β = 0

- 귀무가설은 처리효과를 제어한 상태에서 반응변수Y 미치는 공변량효과가 없다는 가정을 검정.

- 만약 처리와 공변량 사이에 교호작용이 존재하면 처리간에 회귀계수가 동일하지 않다는 것을 의미하고,   귀무가설이 기각되지 않으면 분산분석 시행

 

 2) H02 : α1 = α2 = ... = αI

- 공변량 효과를 제어한 상태에서 처리 반응변수의 차이가 있는지를 검정

  -> 통계 모형을 통해 진짜 알려고 하는 내용

 

이상 내용에 대해 R 분석을 내용은 아래와 같다.

 

1. library 호출 데이터 입력

> library(HH)

> library(lsmeans)

> glucose = read.csv('혈당량자료.csv',header=T)

> head(glucose)

  관측번호 치료법 초기혈당량 치료후혈당량

1        1      A       27.2         32.6

2        2      A       22.0         36.6

3        3      A       33.0         37.7

4        4      A       26.8         31.0

5        5      B       28.6         33.8

6        6      B       26.8         31.7

> colname<-c('obs','trt','x','y')

> colnames(glucose)<-colname

> head(glucose)

  obs trt    x    y

1   1   A 27.2 32.6

2   2   A 22.0 36.6

3   3   A 33.0 37.7

4   4   A 26.8 31.0

5   5   B 28.6 33.8

6   6   B 26.8 31.7

> attach(glucose)

 

 

2. 회귀계수의 동일성 검정 (교호작용 존재 확인)

공분산분석을 하기 전에 먼저 살펴보아야  가정 중의 하나가 바로 처리  회귀계수 β 동일성이다.처리마다 공변량 효과가 동일해야 함을 의미하는데 만약 처리와 공변량 사이에 교호작용이 존재하면 처리 간에 회귀 계수가 동일하지 않다는 것을 의미하고 경우 공분산 분석을 하는 것은 바람직하지않다.

따라서 먼저  사이에 교호작용이 존재하는가의 여부를 살펴본  공분산 분석을 해야 한다.

 

첫번째 귀무가설은 처리효과를 제어한 반응변수Y 미치는 공변량 효과를 검정하기 위한 것이다.

귀무가설 H01: β = 0 

대립가설 H11: β 0

 

 번째 귀무가설은 공변량 효과를 제어한 상태에서 처리  반응변수의 차이가 있는지를 검정.

귀무가설 H02 : α1 = α2 = … = αI

대립가설 H12 : not H02

가지 귀무가설이 기각되지 않으면 공분산분석을 하지 않고 분산분석을 해야 한다.

 

> model1 = aov(y~factor(trt)*x,data=glucose)

> summary(model1)

              Df Sum Sq Mean Sq F value   Pr(>F)   

factor(trt)    4 198.41   49.60  15.868 0.000248 ***

x              1  92.53   92.53  29.601 0.000285 ***

factor(trt):x  4  36.48    9.12   2.917 0.077290 . 

Residuals     10  31.26    3.13                    

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

-> aov함수: 공분산분석의 가정 하나인 처리 회귀계수의 동일성을 확인하기 위해 처리와 공변량 사이의 교호작용의 유무를 검정. aov함수의 우변에 factor(trt) * 공변량 X 입력. 치료법 trt앞에 factor 입력하는 것은 치료법trt 의미하는 ABCDE 각각 명목형 변수이기 때문.

귀무가설 H01: 교호작용이 존재하지 않는다.

대립가설 H11교호작용이 존재한다.

p-value : 0.077290

의사결정: 유의수준 5% 하에서 귀무가설을 기각할 없다.

결론: 교호작용이 존재하지 않으므로 공분산분석을 있다. ( = 처리 안에서 반응변수Y 미치는 공변량x 효과가 모두 동일하다.)

 

Ancova(HH Library)함수를 이용하면, 치료법 공변량의 효과가 동일하다는 가정을 있는 xyplot 그릴 있다.

> ancova(y~trt*x,data=glucose)

Analysis of Variance Table

 

Response: y

          Df  Sum Sq Mean Sq F value    Pr(>F)   

trt        4 198.407  49.602 15.8683 0.0002484 ***

x          1  92.528  92.528 29.6012 0.0002846 ***

trt:x      4  36.476   9.119  2.9173 0.0772904 . 

Residuals 10  31.258   3.126                     

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1

 

 

-> HH라이브러리 ancova 함수는 aov함수와 동일한 기능, trellis 그림인 xyplot시각화 기능 제공.함수 출력 결과는 aov함수와 동일하며, F값은 2.92, p-value 0.0773으로 유의수준 5% 하에서 유의하지 않으므로 귀무가설을 기각할  없다.따라서 공변량과 처리 사이에 교호작용이 존재하지 않으므로 공분산분석을   있다는 것을   있다.

 

 

3. 일원 공분산분석 (One-way ANCOVA) - 공변량 효과 제어 치료법의 효과 검정

처리  공변량의 효과가 동일하다는 가정을 확인한  공분산 분석을 출력

> model2 = lm(y~factor(trt)+x,data=glucose)

> summary(model2)

 

Call:

lm(formula = y ~ factor(trt) + x, data = glucose)

 

Residuals:

    Min      1Q  Median      3Q     Max

-3.1360 -1.0024 -0.2827  0.7257  6.0806

 

Coefficients:

             Estimate Std. Error t value Pr(>|t|)   

(Intercept)   13.9437     4.8219   2.892 0.011834 * 

factor(trt)B  -2.7685     1.5554  -1.780 0.096793 . 

factor(trt)C  -1.6660     1.6186  -1.029 0.320776   

factor(trt)D  -1.6284     1.5618  -1.043 0.314787   

factor(trt)E  -4.5903     1.9115  -2.401 0.030788 * 

x              0.7534     0.1723   4.373 0.000637 ***

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

 

Residual standard error: 2.2 on 14 degrees of freedom

Multiple R-squared:  0.8112,    Adjusted R-squared:  0.7437

F-statistic: 12.03 on 5 and 14 DF,  p-value: 0.0001164

-> lm 함수: 공분산분석에는 lm함수를 사용. ~ 중심으로 좌변에는 반응변수y, 우변에는 치료법trt 공변량 x 입력하고 사이는 * 아닌 + 사용.

귀무가설 H01: β = 0 

         H02 : α1 = α2 = … = αI

대립가설 H11: β 0

 H12 : not H02

p-value : 0.0001164

의사결정: 유의수준 5% 하에서 귀무가설을 매우 강하게 기각할 있다.

결론: 우리가 세운 모형의 자료에 적합하다는 것을 있다. 낮아진 혈당량의 모평균이 처trt의 효과와 공변량들의 효과가 없다라고 말할 없다.유의수준 5%하에서 혈당량의 초기수치(x)  모든 공변량이 0이라는 귀무가설을 기각할만한 증거가 충분하다.

 

-> 결과 해석:

 - 치료법A 0으로   치료법E p-value 0.030788 유의하게 차이가 난다는 것을   있다.

 

 

1종 제곱합과 회귀계수 동일성 확인 위한 xyplot 그래프는 아래와 같다.

> ancova(y~trt+x,data=glucose)

Analysis of Variance Table

 

Response: y

          Df  Sum Sq Mean Sq F value    Pr(>F)   

trt        4 198.407  49.602  10.252 0.0004301 ***

x          1  92.528  92.528  19.125 0.0006369 ***

Residuals 14  67.734   4.838                     

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’

-> ancova(y~trt+x,data=glucose), 공분산분석이므로 * 아닌 + 입력.

-> 그래프 결과해석: 5 그래프의 적합회귀식 절편은 다르지만 기울기는 동일하므로 공변량 효과가 처리마다 다르지 않음을 있다. “2. 공분산분석을 위한 가지 가정 번째 내용 처리 안에서 반응변수Y 미치는 공변량x 효과가 모두 동일해야 한다. 교호작용이 없어야 한다.” 만족시킨다.

 

4. 공변량 효과 제어시 치료법의 효과 검정 - 모형 제곱합

1) 1 제곱합 Type I SS

SS(trt,X) = SS(trt) + SS(X | trt)

         처리가 기여한 부분 + 처리의 기여 순수 공변량 x 기여한 부분

2) 3 제곱합 Type III SS

SS(trt | X) + SS(X | trt)

공변량x 기여한 상태에서 처리가 기여한 부분 + 처리의 기여 순수 공변량 x 기여한 부분

x given trt, 초기혈당수치 x 고려된 치료법간 차이trt 차이를 확인한다는 분석의 목적. x 기여 순수 trt 기여를 아는 것이 목표이기 때문에, 우리가 관심가지는 분야 역시 3 제곱함 SS(trt | X) 부분

 

1 제곱합

> ancova(y~trt+x,data=glucose)

Analysis of Variance Table

 

Response: y

          Df  Sum Sq Mean Sq F value    Pr(>F)   

trt        4 198.407  49.602  10.252 0.0004301 ***

x          1  92.528  92.528  19.125 0.0006369 ***

Residuals 14  67.734   4.838                     

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’

 

 

3 제곱합

> summary(aov(y~x+factor(trt),data=glucose))

            Df Sum Sq Mean Sq F value Pr(>F)   

x            1 256.75  256.75  53.067  4e-06 ***

factor(trt)  4  34.19    8.55   1.767  0.192   

Residuals   14  67.73    4.84                  

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1

 

1 제곱합은

- F-10.252

- p-value: 0.0004301 < 0.05

- 의사결정: ss(trt) 1 제곱합은 유의하게 나와 치료법이 5% 유의수준 하에서 유의하다.

 

3 제곱합

- F-1.767

- p-value: 0.192 > 0.05

- 의사결정: ss(trt | x) x given trt, 공변량x 기여한 상태에서 처리trt 기여한 순수한 부분을 확인하는 3 제곱합은 치료법trt 5% 유의수준 하에서 유의하지 않다. 공분산분석은 공변량x 효과를 제어했을 치료법trt 따라 혈압의 보정평균이 차이가 나는지가 관심사이기 때문에 치료법의 유의성 결과는 3 제곱합에 나타난 결과를 보아야 한다.

 

초기수치

초기수치에 대해서는 1 제곱합과 3 제곱합이 같게 나오는데 이것은 1 제곱합에서는 SS(X | trt)이고 고유기여분을 나타내는 3 제곱합에서도 SS(X | trt)이기 때문이다. 초기 수치에 대한 p-value 0.0006으로 유의수준 5%하에서 매우 유의함을 있다.

귀무가설 H02 : α1 = α2 = … = αI

p-value: 0.0006

의사결정: 초기수치의 효과가 0이라는 귀무가설을 기각하게 되어 앞의 공분산분석을 하기 위해 만족해야 하는 번째 가정이 충족되는 것을 있다.

 

4.  요인의 수준별 추정치 분석

> model2 = lm(y~factor(trt)+x,data=glucose)

> summary(model2)

 

Call:

lm(formula = y ~ factor(trt) + x, data = glucose)

 

Residuals:

    Min      1Q  Median      3Q     Max

-3.1360 -1.0024 -0.2827  0.7257  6.0806

 

Coefficients:

             Estimate Std. Error t value Pr(>|t|)   

(Intercept)   13.9437     4.8219   2.892 0.011834 * 

factor(trt)B  -2.7685     1.5554  -1.780 0.096793 . 

factor(trt)C  -1.6660     1.6186  -1.029 0.320776   

factor(trt)D  -1.6284     1.5618  -1.043 0.314787   

factor(trt)E  -4.5903     1.9115  -2.401 0.030788 * 

x              0.7534     0.1723   4.373 0.000637 ***

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

 

Residual standard error: 2.2 on 14 degrees of freedom

Multiple R-squared:  0.8112,    Adjusted R-squared:  0.7437

F-statistic: 12.03 on 5 and 14 DF,  p-value: 0.0001164

 

위의  추정 계수를 바탕으로 공분산 모형식을 쓰면 아래 식과 같다.

 

ŷ1j = β^0 + α^1 + β^x1j = 13.9437 + 0 + 0.7534x1j

ŷ2j = β^0 + α^2 + β^x2j = 13.9437 -2.7685 + 0.7534x2j

ŷ3j = β^0 + α^3 + β^x3j = 13.9437 -1.6660 + 0.7534x3j

ŷ4j = β^0 + α^4 + β^x4j = 13.9437 -1.6284 + 0.7534x4j

ŷ5j = β^0 + α^5 + β^x5j = 13.9437 -4.5903 + 0.7534x5j

 

 처리의 회귀식을 살펴보면 공변량 초기혈당량의 회귀계수 0.7534 모두 처리에 대해 공통이고 반응변수y 절편에서만 값이 차이가 난다는 것을   있다 번째 치료법 A 처리효과를 0으로놓았기 때문에 Inetercept 부분의 회귀계수 13.9437 첫번째 치료법 A 상수항임을   있고치료법B부터 치료법 E 대한 추정치는 각각  번째 

치료법 A 추정치와의 차이가 난다.

치료법A(trt A) 치료법 E(trt E) 차이에 대한 p-value 0.0308 유의하게 나와 치료법 A 치료법E 유의하게 차이가 난다는 것을   있다

혈당량의 초기 수치(x) 대한 모수 추정치는 0.753이고 t-값과 p-값이 각각 4.373 0.000637으로유의수준 5%하에서 혈당량의 초기 수치(x) 0이라는 귀무가설을 기각할 만한 증거가 충분하다.

공변량 효과가 있다. 이는 공분산결과 분석을 해도 된다.

 

 

5. LSMEAN(adjusted mean) 분석

> lsmeans(model2, ~ trt)

 trt   lsmean       SE df lower.CL upper.CL

 A   32.97565 1.151991 14 30.50487 35.44642

 B   30.20716 1.148211 14 27.74449 32.66982

 C   31.30960 1.104799 14 28.94004 33.67916

 D   31.34724 1.117954 14 28.94946 33.74501

 E   28.38536 1.341631 14 25.50785 31.26287

 

Confidence level used: 0.95

Warning message:

In model.frame.default(trms, grid, na.action = na.pass, xlev = xlev) :

  variable 'trt' is not a factor

보정된(adjust) 평균은  처리마다 추정된 회귀식에서 공변량값에  처리 평균 대신 공변량의 전체평균을 

사용하였을  기대되는 반응변수의 평균이다공변량 효과를 보정한 상태에서의 반응변수의 평균으로모든 처리에서 공변량 평균이 같다고 했을 때의 평균이다공분산분석에서는 공변량 효과를

보정한 보정 평균 간에 차이가 있는지가 가장  관심사이다앞에서 구한  처리 회귀식의 공변량에

공변량의 전체 평균값을 넣어서 처리별 보정된 평균을 다음 식과 같이 계산할  있다.

 

y barad1 = β^0 + α^1 + β^xbar = 13.9437 + 0 + 0.7534 X 25.26 = 32.975

y barad2 = β^0 + α^2 + β^xbar = 13.9437 -2.7685 + 0.7534 X 25.26 =30.207

y barad3 = β^0 + α^3 + β^xbar = 13.9437 -1.6660 + 0.7534 X 25.26 =31.309

y barad4 = β^0 + α^4 + β^xbar = 13.9437 -1.6284 + 0.7534 X 25.26 =31.347

y barad5 = β^0 + α^5 + β^xbar = 13.9437 -4.5903 + 0.7534 X 25.26 =28.385

 

 처리마다 계산된 보정된 평균값의 차이는 공변량의 값이 전체 평균으로 같기 때문에 평균값의 차이는 절편의 차이가 됨을   있다 처리마다 추정된 회귀계수 값들은  번째 처리(trt A) 추정치 차이인 동시에  번째 처리와의 보정된 평균 차이이기도 하다.

 

 

6. Tukey(HSD) 검정 (처리 다중 비교)

> model2.lsm = lsmeans(model2,pairwise ~ trt,glhargs=list())

> print(model2.lsm, omit = 2)

$lsmeans

 trt   lsmean       SE df lower.CL upper.CL

 A   32.97565 1.151991 14 30.50487 35.44642

 B   30.20716 1.148211 14 27.74449 32.66982

 C   31.30960 1.104799 14 28.94004 33.67916

 D   31.34724 1.117954 14 28.94946 33.74501

 E   28.38536 1.341631 14 25.50785 31.26287

 

Confidence level used: 0.95

 

$contrasts

 contrast    estimate       SE df t.ratio p.value

 A - B     2.76849175 1.555390 14   1.780  0.4216

 A - C     1.66604727 1.618557 14   1.029  0.8378

 A - D     1.62840923 1.561818 14   1.043  0.8316

 A - E     4.59029035 1.911531 14   2.401  0.1718

 B - C    -1.10244448 1.615029 14  -0.683  0.9570

 B - D    -1.14008252 1.560695 14  -0.730  0.9457

 B - E     1.82179860 1.904048 14   0.957  0.8696

 C - D    -0.03763804 1.585115 14  -0.024  1.0000

 C - E     2.92424307 1.690871 14   1.729  0.4485

 D - E     2.96188112 1.832554 14   1.616  0.5115

 

P value adjustment: tukey method for comparing a family of 5 estimates

> plot(model2.lsm[[2]])

앞서  모델에서는 A E 치료법 사이에 유의한 차이가 있었지만, LSD 검정(Tukey(HSD)) 검정에서는어느 치료법도 혈당 수치에 있어 유의한 차이가 없다왜일까? Tukey검정방법은 상대적으로 보수적이기 때문에 정말 차이가 경우에만 유의한 차이를 보인다.

 

Dunnett vs Tukey

모든 평균이 같다는 귀무가설이 기각되었다는 말은 그룹 최소한 하나는 0 아니다라는 말이다어느 쌍의 차이로 귀무가설이 기각되었는지 조사하기 위해 다중비교를 한다분산분석에서 많이 쓰이는 다중비교 방법은 Dunnett Tukey이다. Tukey 가능한 모든 조합의 쌍을, Dunnett 하나의 대조군(reference) 나머지 비교군(treatment)들과 비교한다.

6-1) Tukey

> library(multcomp)

> model3 = lm(y~trt+x,data=glucose)

> tukey = glht(model3,linfct=mcp(trt='Tukey'))

> summary(tukey)

 

         Simultaneous Tests for General Linear Hypotheses

 

Multiple Comparisons of Means: Tukey Contrasts

 

 

Fit: lm(formula = y ~ trt + x, data = glucose)

 

Linear Hypotheses:

           Estimate Std. Error t value Pr(>|t|)

B - A == 0 -2.76849    1.55539  -1.780    0.419

C - A == 0 -1.66605    1.61856  -1.029    0.836

D - A == 0 -1.62841    1.56182  -1.043    0.830

E - A == 0 -4.59029    1.91153  -2.401    0.170

C - B == 0  1.10244    1.61503   0.683    0.956

D - B == 0  1.14008    1.56069   0.730    0.945

E - B == 0 -1.82180    1.90405  -0.957    0.868

D - C == 0  0.03764    1.58512   0.024    1.000

E - C == 0 -2.92424    1.69087  -1.729    0.446

E - D == 0 -2.96188    1.83255  -1.616    0.509

(Adjusted p values reported -- single-step method)

결과해석모든 치료방법 차이의 p-value 0.05보다 크기 때문에 유의하지 않다.

 

> plot(tukey)

 

결과 해석치료 방법의 차이 신뢰구간이 0 포함하고 있으므로 서로 유의하지 않다어느 치료법도 혈당수치에 있어 유의한 차이가 없다.

 

 

6-2) Dunnett

> dunnett=glht(model3,linfct=mcp(trt='Dunnett'))

> summary(dunnett)

 

         Simultaneous Tests for General Linear Hypotheses

 

Multiple Comparisons of Means: Dunnett Contrasts

 

 

Fit: lm(formula = y ~ trt + x, data = glucose)

 

Linear Hypotheses:

           Estimate Std. Error t value Pr(>|t|) 

B - A == 0   -2.768      1.555  -1.780   0.2700 

C - A == 0   -1.666      1.619  -1.029   0.7006 

D - A == 0   -1.628      1.562  -1.043   0.6919 

E - A == 0   -4.590      1.912  -2.401   0.0953 .

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Adjusted p values reported -- single-step method)

결과해석모든 치료방법 차이의 p-value 0.05보다 크기 때문에 유의하지 않다.

  

> plot(dunnett)

 

결과 해석치료 방법의 차이 신뢰구간이 0 포함하고 있으므로 서로 유의하지 않다어느 치료법도 혈당수치에 있어 유의한 차이가 없다.

  

 

7. 잔차 분석 

> par(mfrow=c(2,2))

> plot(모형2)

특이값 2번이 존재하지만정규분포를 따르고 등분산 가정은  문제는 없다.

 

 

출처: 보건정보데이터 분석(이태림, 이재원, 김주한, 장대흥 공저), R 이용한 누구나 하는 통계분석(안재형 )

반응형
Posted by 마르띤
,