'KNOU/2 보건 정보 데이터 분석' 카테고리의 글 목록

제6.5장 준모수적 방법

KNOU/2 보건 정보 데이터 분석 2017. 1. 26. 09:38

6.5 준모수적 방법

Cox의 비례 모형

모수적 모형은 가정이 타당할 때는 상당히 효율적이지만 어떤 모형이 적당한가에 대한 지식이 없다면 함부로 사용하기가 곤란하다. 이에 반해 Cox(1972)의 비례 위험 모형(proportional hazards model)은 준모수적(semi-parametric)방법으로서 생존 시간의 분포에 대한 가정을 필요로 하지 않는다. 또한 시간에 따라 바뀌는 공변량(time-dependent variable)의 경우에도 분석할 수 있다는 장점이 있어, 생존자료의 분석에 매우 자주 사용된다.

[예] Prenctice(1973)에 소개된 것으로 40명의 폐암 환자의 생존시간을 조사한 것이다. 40명의 환자 중 21명은 기존 치료방법인 처리1에, 나머지 19명은 새로운 치료방법은 처리2에 할당되었으며, 생존시간에 영향을 미칠 것으로 생각되는 공변량은 다음과 같다.

X1: 진단시의 환자상태(Perfermance Status : 0~100 점)

X2: 환자의 나이(단위 : 년)

X3: 진단 후 연구 참여시까지의 시간(단위 : 월)

Trt: 치료 방법 (1 – 기존 치료, 2 – 새로운 치료)

TYPE: 종양의 유형 (squamous, small, adeno, large)

1. 데이터 입력

> setwd('c:/Rwork/')

> lung<-read.table('lung.txt',header=T)

> colnames(lung)<-c('time','status','x1','x2','x3','trt','type')

> head(lung)

time status x1 x2 x3 trt type

1 411 1 70 64 5 1 1

2 126 1 60 63 9 1 1

3 118 1 70 65 11 1 1

4 82 1 40 69 10 1 1

5 8 1 40 63 58 1 1

6 25 0 70 48 9 1 1

2. Cox비례위험모형에 근거한 생존시간 분석

> library(survival)

> coxfit1 = coxph(Surv(time,status)~x1+x2+x3+factor(trt)+factor(type),data=lung)

> summary(coxfit1)

Call:

coxph(formula = Surv(time, status) ~ x1 + x2 + x3 + factor(trt) +

factor(type), data = lung)

n= 40, number of events= 37

coef exp(coef) se(coef) z Pr(>|z|)

x1 -0.060281 0.941500 0.013777 -4.375 1.21e-05 ***

x2 -0.015086 0.985027 0.022340 -0.675 0.4995

x3 0.001201 1.001201 0.011886 0.101 0.9195

factor(trt)2 -0.448171 0.638795 0.431302 -1.039 0.2988

factor(type)2 0.279682 1.322709 0.547259 0.511 0.6093

factor(type)3 1.418190 4.129638 0.625283 2.268 0.0233 *

factor(type)4 0.361145 1.434971 0.479210 0.754 0.4511

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

exp(coef) exp(-coef) lower .95 upper .95

x1 0.9415 1.0621 0.9164 0.9673

x2 0.9850 1.0152 0.9428 1.0291

x3 1.0012 0.9988 0.9781 1.0248

factor(trt)2 0.6388 1.5654 0.2743 1.4876

factor(type)2 1.3227 0.7560 0.4525 3.8663

factor(type)3 4.1296 0.2422 1.2125 14.0655

factor(type)4 1.4350 0.6969 0.5610 3.6707

Concordance= 0.764 (se = 0.058 )

Rsquare= 0.524 (max possible= 0.994 )

Likelihood ratio test= 29.66 on 7 df, p=0.0001097

Wald test = 26.29 on 7 df, p=0.0004479

Score (logrank) test = 30.67 on 7 df, p=7.138e-05

- coxph: cox의 비례위험 모형을 ㅈ거합함.

-> 결과 해석:

- 진단시의 환자상태(x1)에 대한 회귀계수가 -0.060281로 유의하다(p-value < 0.001). 위험률(exp(coef))를 보면 진단시의 환자상태에 대한 점수가 1점 더 높은 환자는 다른 조건이 동일한 환자와 비교할 때 0.9415(exp(-0.060281))배 위험하다는 것을 알 수 있다.

exp(-coef) = 1.0621은 exp(coef)의 역수인 1/0.9415이다.

- 나이(x2), 진단 후 연구 참여시까지의 시간(x3), 처리(trt)는 모두 p-value가 0.05보다 커서 유의한 영향을 미치지 않는다.

- TYPE: 종양의 유형 (squamous, small, adeno, large)을 보면 factor(type)3인 adeno의 경우 squamous와 차이를 보인다.(p-value: 0.0233)

회귀계수가 0이라는 가설에 대한 검정통계량. 차례로 우도비 검정(-2 LOG L), Wald 검정통계량, Score 검정이 있다. 세 통계랑 모두 가설을 기각하게 되므로 (p-value < 0.05), 적어도 하나의 공변량은 의미가 있다는 것(= 적어도 모든 변수가 0이라는 귀무가설을 기각)을 알 수 있다.

Likelihood ratio test= 29.66 on 7 df, p=0.0001097

Wald test = 26.29 on 7 df, p=0.0004479

Score (logrank) test = 30.67 on 7 df, p=7.138e-05

3. 생존함수추정치

> fit4 = survfit(coxfit1)

> summary(fit4)

Call: survfit(formula = coxfit1)

time n.risk n.event survival std.err lower 95% CI upper 95% CI

1 40 1 9.90e-01 1.10e-02 9.68e-01 1.000

2 39 1 9.79e-01 1.67e-02 9.47e-01 1.000

8 38 2 9.54e-01 2.71e-02 9.03e-01 1.000

10 36 1 9.37e-01 3.32e-02 8.74e-01 1.000

11 35 1 9.20e-01 3.87e-02 8.47e-01 0.999

12 34 2 8.83e-01 4.84e-02 7.93e-01 0.984

15 32 1 8.64e-01 5.33e-02 7.65e-01 0.975

16 31 1 8.44e-01 5.79e-02 7.38e-01 0.965

18 30 1 8.22e-01 6.27e-02 7.07e-01 0.954

19 29 1 7.96e-01 6.77e-02 6.74e-01 0.941

20 28 1 7.67e-01 7.27e-02 6.37e-01 0.924

21 27 1 7.34e-01 7.73e-02 5.97e-01 0.903

43 25 1 6.97e-01 8.22e-02 5.54e-01 0.879

44 24 1 6.61e-01 8.62e-02 5.12e-01 0.854

51 23 1 6.26e-01 8.94e-02 4.73e-01 0.828

54 22 1 5.84e-01 9.23e-02 4.28e-01 0.796

56 21 1 5.44e-01 9.39e-02 3.87e-01 0.763

82 20 1 5.06e-01 9.46e-02 3.50e-01 0.730

84 19 1 4.64e-01 9.54e-02 3.11e-01 0.694

90 18 1 4.25e-01 9.51e-02 2.74e-01 0.659

100 17 1 3.81e-01 9.46e-02 2.34e-01 0.620

118 15 1 3.35e-01 9.36e-02 1.94e-01 0.580

126 14 1 2.93e-01 9.12e-02 1.59e-01 0.540

153 13 1 2.53e-01 8.79e-02 1.28e-01 0.500

164 12 1 2.14e-01 8.37e-02 9.97e-02 0.461

177 11 1 1.80e-01 7.81e-02 7.66e-02 0.421

200 10 1 1.40e-01 7.08e-02 5.20e-02 0.377

201 9 1 1.07e-01 6.19e-02 3.41e-02 0.333

231 8 1 8.00e-02 5.25e-02 2.21e-02 0.289

250 6 1 5.18e-02 4.19e-02 1.06e-02 0.253

287 5 1 2.88e-02 2.98e-02 3.81e-03 0.218

340 4 1 9.18e-03 1.50e-02 3.74e-04 0.225

411 3 1 2.19e-03 5.10e-03 2.30e-05 0.210

991 2 1 1.28e-04 5.20e-04 4.54e-08 0.362

999 1 1 3.36e-10 5.39e-09 7.43e-24 1.000

> names(fit4)

[1] "n" "time" "n.risk" "n.event" "n.censor" "surv"

[7] "type" "cumhaz" "std.err" "upper" "lower" "conf.type"

[13] "conf.int" "call"

> fit4$surv

[1] 9.895862e-01 9.787704e-01 9.543895e-01 9.372414e-01 9.195316e-01

[6] 8.834541e-01 8.637107e-01 8.439345e-01 8.215162e-01 7.962148e-01

[11] 7.670584e-01 7.344065e-01 7.344065e-01 6.974181e-01 6.609451e-01

[16] 6.256915e-01 5.835925e-01 5.436422e-01 5.055202e-01 4.643798e-01

[21] 4.249339e-01 3.809762e-01 3.809762e-01 3.352450e-01 2.932721e-01

[26] 2.533265e-01 2.142532e-01 1.795911e-01 1.401508e-01 1.065182e-01

[31] 8.001270e-02 5.176743e-02 2.881620e-02 9.176925e-03 2.194374e-03

[36] 1.281990e-04 3.359491e-10

- fit에서 4번째 열 fit$surv 은 생존함수의 추정치를 나타내는데, 여기서 -log()를 취해주면 위험함수가 됨.

4. 생존함수그래프

> plot(survfit(coxfit1),xlab='time',ylab='Survival function',xlim=c(0,998.9))

> legend(500,1.0,c('누적한계추정치','95%신뢰구간'),lty=c(1,2))

5. 누적함수그래프

누적위험함수의 추정치 그래프를 통해 위험함수의 형태를 짐작할 수 있다. 예를 들어 단조 증가하는 직선형태는 위험함수가 시간에 대해 일정하다는 것을 의미하며, 위쪽으로 휘는 모양이면 시간이 지남에 따라 일정하다는 것을 의미하며, 위쪽으로 휘는 모양이면 시간이 지남에 따라 위험함수가 증가하고, 아래 방향으로 휘면 감소한다는 것을 의미한다.

> H.hat = -log(fit4$surv)

> H.hat = c(H.hat,tail(H.hat,1))

> plot(c(fit4$time,1100),H.hat,xlab='time',ylab='comulative hazard function',type='s')

- tail: 벡터, 매트릭스 데이터에서 마지막 n개의 행들을 선택함. 예를 들어 tail(H.hat,1)라고 입력하면 H.hat 벡터의 마지막 1개의 성분을 선택. 해당 처리를 하는 이유는 위험함수 곡선은 시간에 대한 상승곡선이므로, 마지막 함수값을 추가함을써 곡선의 모양을 자연스럽게 하기 위한 처리임.

6. 비례성 검토를 위한 로그-로그 그림

비례성의 가정이 타당한 것인지 검토하는 방법에 대해 알아보자. 폐암자료에서 두 처리그룹별로 시간에 따른 log(-log S^ (t)) 의 그래프를 그렸을 때 평행하게 되는 가를 볼 수 있다.

> coxfit2 = coxph(Surv(time,status)~x1+x2+x3+strata(trt)+factor(type),data=lung)

> plot(survfit(coxfit2),fun='cloglog',lty=1:2,col=c('red','blue'))#fun='cloglog', 두 그래프가 대체적으로 평행하므로 비례성이 타당하다고 할 수 있다.

> legend('topleft',c('처리1','처리2'),lty=1:2,col=c('red','blue'))

- strata(trt): 처리를 층으로 입력해주면, 처리를 층으로 입력하여, 처리1과 처리2로 나누어 Cox 비례 위험 모형을 추정함.

- fun='cloglog'를 입력하면 로그-로그 그림을 그릴 수 있다.

- 비례성검토를 위한 로그-로그 그림(log-log plot)은 그래프가 평행하므로 비례성의 가정이 타당하다 할 수 있다.

7. 로그 – 랭크 테스트 log – rank test

1) 종양 유형 별 생존함수의 차이

> survdiff(Surv(time,status)~factor(type),data=lung)

Call:

survdiff(formula = Surv(time, status) ~ factor(type), data = lung)

N Observed Expected (O-E)^2/E (O-E)^2/V

factor(type)=1 14 12 16.72 1.330 2.825

factor(type)=2 11 10 6.93 1.356 1.771

factor(type)=3 5 5 2.18 3.651 4.099

factor(type)=4 10 10 11.17 0.123 0.187

Chisq= 7.4 on 3 degrees of freedom, p= 0.0614

X²(df=3)=7.4이고, p-value가 0.0614로 0.05보다는 약간 크지만 상당히 의미 있음을 알 수 있다.

2) 치료법 생존함수의 차이

> survdiff(Surv(time,status)~x1,data=lung)

Call:

survdiff(formula = Surv(time, status) ~ x1, data = lung)

N Observed Expected (O-E)^2/E (O-E)^2/V

x1=20 2 2 0.128 27.3119 28.6351

x1=30 4 4 1.565 3.7893 4.2568

x1=40 7 7 1.932 13.2948 15.1966

x1=50 4 3 3.298 0.0270 0.0305

x1=60 7 7 6.642 0.0193 0.0247

x1=70 9 7 12.420 2.3650 3.7914

x1=80 6 6 6.982 0.1382 0.1761

x1=90 1 1 4.033 2.2811 3.7772

Chisq= 58.8 on 7 degrees of freedom, p= 2.65e-10

X²(df=7)=58.8이고, p-value가 0.05보다 매우 작기 때문에 의미 있음을 알 수 있다.

8. anova를 이용하여 모형 비교

> coxfit1 = coxph(Surv(time,status)~x1+x2+x3+factor(trt)+factor(type),data=lung)

> coxfit2 = coxph(Surv(time,status)~x1+factor(type),data=lung)

> anova(coxfit2,coxfit1)

Analysis of Deviance Table

Cox model: response is Surv(time, status)

Model 1: ~ x1 + factor(type)

Model 2: ~ x1 + x2 + x3 + factor(trt) + factor(type)

loglik Chisq Df P(>|Chi|)

1 -88.143

2 -87.516 1.254 3 0.7401

anova()는 Cox Regression의 모형을 비교할 때 LRT(Likelihood ratio test)를 사용한다. 환자의 나이(x2), 진단 후 연구 참여시까지의 시간( x3)의 p-value는 0.7401으로 유의하지 않다.

출처: 보건정보데이터 분석 (이태림, 이재원, 김주한, 장대흥 공저), R을 이용한 누구나 하는 통계분석

'KNOU > 2 보건 정보 데이터 분석' 카테고리의 다른 글

제6.4장 모수적 방법 (0)	2017.01.26
제6.3장 비모수적 방법을 이용한 생존함수의 비교 (0)	2017.01.26
제6.2장 비모수적 방법 - 2. 누적한계추정법 (0)	2017.01.26
제6.2장 비모수적 방법 - 1. 생명표 방법 (0)	2017.01.26
제5.1장 공분산 분석 - 2 공변량이 둘 이상인 경우 (2)	2017.01.13

Posted by 마르띤

,

제6.4장 모수적 방법

KNOU/2 보건 정보 데이터 분석 2017. 1. 26. 09:38

6.4 모수적 방법을 이용한 생존함수의 추정과 비교

공학(시멘트의 양, 유리의 버티는 힘), 경영(고객 수), 교통(소방차 수) 모두 모수적 방법을 이용.

분포를 이루기 때문에 많은 분야에서 사용된다.

1. 데이터 입력

> setwd('c:/Rwork')

> lung=read.table('lung.txt',header=T)

> head(lung)

癤퓍ime status x1 x2 x3 trt type

1 411 1 70 64 5 1 1

2 126 1 60 63 9 1 1

3 118 1 70 65 11 1 1

4 82 1 40 69 10 1 1

5 8 1 40 63 58 1 1

6 25 0 70 48 9 1 1

> colnames(lung)<-c('time','status','x1','x2','x3','trt','type')

> head(lung)

time status x1 x2 x3 trt type

1 411 1 70 64 5 1 1

2 126 1 60 63 9 1 1

3 118 1 70 65 11 1 1

4 82 1 40 69 10 1 1

5 8 1 40 63 58 1 1

6 25 0 70 48 9 1 1

> attach(lung)

2. 모수적 모형에 근거한 생존시간 분석

> library(survival)

> weibull = survreg(Surv(time,status)~x1+x2+x3+factor(trt)+factor(type),data=lung,dist='weibull') #공변량factor(trt), 처리효과factor(type), 와이블 분포weibull, gaussian(정규분포), logistic(로지스틱)eh rksmd.

> summary(weibull)

Call:

survreg(formula = Surv(time, status) ~ x1 + x2 + x3 + factor(trt) +

factor(type), data = lung, dist = "weibull")

Value Std. Error z p

(Intercept) 1.06044 1.35959 0.780 4.35e-01

x1 0.05420 0.00954 5.680 1.35e-08

x2 0.01168 0.01918 0.609 5.42e-01

x3 0.00379 0.01051 0.361 7.18e-01

factor(trt)2 0.28871 0.36899 0.782 4.34e-01

factor(type)2 -0.49964 0.45323 -1.102 2.70e-01

factor(type)3 -1.25968 0.49732 -2.533 1.13e-02

factor(type)4 -0.40243 0.38726 -1.039 2.99e-01

Log(scale) -0.13615 0.13146 -1.036 3.00e-01

Scale= 0.873

Weibull distribution

Loglik(model)= -203.4 Loglik(intercept only)= -219.7

Chisq= 32.59 on 7 degrees of freedom, p= 3.2e-05

Number of Newton-Raphson Iterations: 6

n= 40

> weibull

Call:

survreg(formula = Surv(time, status) ~ x1 + x2 + x3 + factor(trt) +

factor(type), data = lung, dist = "weibull")

Coefficients:

(Intercept) x1 x2 x3 factor(trt)2

1.060436846 0.054195931 0.011681287 0.003792838 0.288708242

factor(type)2 factor(type)3 factor(type)4

-0.499640589 -1.259681146 -0.402431957

Scale= 0.8727099

Loglik(model)= -203.4 Loglik(intercept only)= -219.7

Chisq= 32.59 on 7 degrees of freedom, p= 3.2e-05

n= 40

logT = 1.060 + 0.054x1 + 0.012x2 + 0.004x3 + 0.289x4 - 0.500x5 -1.260x6 - 0.402x7 +0.873e

factor(trt)2 0.28871 0.36899 0.782 4.34e-01

-> x4는 처리그룹을 나타내는 가변수(dummy variable)로서 처리가 standard일 때 1, test 일 때 2의 값을 갖는다.

p-value가 0.434로 유의하지 않으므로 두 처리(standard, test)는 생존시간의 차이를 보이지 않는다.

type은 squamous,small,adeno,large, x5,6,7은 종양의 유형을 가르키는 가변수로서

x5 = 1, if 'small', = 0 o.w.

x6 = 1, if 'adeno', = 0 o.w.

x7 = 1, if 'large', = 0 o.w.

따라서 종양이 squamous인 경우에는 x5=x6=x7 = 0 된다.

factor(type)3 -1.25968 0.49732 -2.533 1.13e-02

-> adeno의 p-value만 0.0113으로 0.05보다 적으므로 유의, squamous와 차이를 보인다고 할 수 있다. adeno의 회귀계수가 -1.25968로 이 유형을 가진 사람들은 상대적으로 생존시간이 짧다는 것을 알 수 있다. type2 small, type4 large의 경우 p-value가 각각 0.270, 0,299로 유의하지 않다, 즉 squamous와 차이를 보이지 않는다.

Loglik(model)= -203.4 Loglik(intercept only)= -219.7

Chisq= 32.59 on 7 degrees of freedom, p= 3.2e-05

2(logL-logL0) = 32.59 > 14.067 모든 공변량의 회귀계수가 0이라는 귀무가설을 아주 강하게 기각한다.

통상적인 선형모형에서 모형에 대한 F-검정을 하는 것과 같이 여기서도 모든 공변량의 회귀계수가 0이라는 가설에 대하 우도비 검정(likelihood-ratio ttest)를 할 수 있다. 우리가 고려한 모형에서의 로그-우도(log-likelihood)를 logL, 공변량이 전혀 없는 귀무모형에서의 로그-우도를 logL0라고 했을 때 2(logL-logL0)이 귀무가설하에서 근사적으로 x2-분포를 따르게 되므로 이를 이용하여 검정할 수 있다.

이때 자유도는 귀무모형에서 제외되는 공변량의 수와 같게 되며, 위에서는 7이 된다.

LogL: 고려한 모형에서의 로그-우도 Log Likelihood for WEIBULL -203.4는 이 모형에 대한 로그-우도이다.

LogL0: 공변량이 전혀 없는 귀무모형에 대한 로그-우도를 구해보면 Log Likelihood for WEIULL = =219.7을

따라서 Chisq= 32.59는 아래와 같은 계산을 통해 얻을 수 있으며, 이 값이 x2-분포의 임계치인 x2 0.95(7) = 14.067보다 크므로

5%유의수준하에서 모든 공변량의 회귀계수가 0이라는 귀무사설을 기각하게 된다.

> 2*(-203.4-(-219.7))

[1] 32.6

3. 모수적 모형의 적합도 검토

고려한 모형이 타당한가를 검토하는 방법 중 하나는 로그-우도 비교. R을 이용하여 각 모형에 대하 로그-우도를 출력한 다음 이들을 비교하여 절대값이 가장 큰 모형을 택할 수 있다. 또는 AIC(Akaike information criterion) 값을 비교하여 이 값이 더 작은 것을 선택할 수 있다.

> library(flexsurv) #flexsurv library: Flexible parametric survival models

Warning message:

package ‘flexsurv’ was built under R version 3.2.5

> gengamma=flexsurvreg(formula=Surv(time,status)~x1+x2+x3+factor(trt)+factor(type),data=lung,dist='gengamma')

> gengamma

Call:

flexsurvreg(formula = Surv(time, status) ~ x1 + x2 + x3 + factor(trt) +

factor(type), data = lung, dist = "gengamma")

Estimates:

data mean est L95% U95% se exp(est)

mu NA 1.16226 -1.69652 4.02104 1.45859 NA

sigma NA 0.82367 0.47903 1.41628 0.22778 NA

Q NA 1.19119 -0.35449 2.73687 0.78863 NA

x1 56.50000 0.05426 0.03598 0.07254 0.00933 1.05576

x2 56.57500 0.01210 -0.02543 0.04963 0.01915 1.01217

x3 15.65000 0.00494 -0.01741 0.02729 0.01141 1.00495

factor(trt)2 0.50000 0.27185 -0.47815 1.02186 0.38266 1.31239

factor(type)2 0.27500 -0.57430 -1.63425 0.48566 0.54080 0.56310

factor(type)3 0.12500 -1.36101 -2.57769 -0.14434 0.62076 0.25640

factor(type)4 0.25000 -0.48503 -1.45929 0.48923 0.49708 0.61568

L95% U95%

mu NA NA

sigma NA NA

Q NA NA

x1 1.03664 1.07524

x2 0.97489 1.05088

x3 0.98274 1.02767

factor(trt)2 0.61993 2.77835

factor(type)2 0.19510 1.62524

factor(type)3 0.07595 0.86560

factor(type)4 0.23240 1.63107

N = 40, Events: 37, Censored: 3

Total time at risk: 5784

Log-likelihood = -203.4059, df = 10

AIC = 426.8117

> weibull=flexsurvreg(formula=Surv(time,status)~x1+x2+x3+factor(trt)+factor(type),data=lung,dist='weibull')

> weibull

Call:

flexsurvreg(formula = Surv(time, status) ~ x1 + x2 + x3 + factor(trt) +

factor(type), data = lung, dist = "weibull")

Estimates:

data mean est L95% U95% se exp(est)

shape NA 1.14586 0.88555 1.48269 0.15066 NA

scale NA 2.88763 0.20141 41.39933 3.92317 NA

x1 56.50000 0.05420 0.03551 0.07288 0.00953 1.05569

x2 56.57500 0.01168 -0.02587 0.04924 0.01916 1.01175

x3 15.65000 0.00379 -0.01679 0.02438 0.01050 1.00380

factor(trt)2 0.50000 0.28871 -0.43443 1.01185 0.36896 1.33470

factor(type)2 0.27500 -0.49964 -1.38783 0.38855 0.45317 0.60675

factor(type)3 0.12500 -1.25968 -2.23430 -0.28506 0.49726 0.28374

factor(type)4 0.25000 -0.40243 -1.16137 0.35651 0.38722 0.66869

L95% U95%

shape NA NA

scale NA NA

x1 1.03615 1.07560

x2 0.97446 1.05047

x3 0.98335 1.02468

factor(trt)2 0.64763 2.75068

factor(type)2 0.24962 1.47484

factor(type)3 0.10707 0.75197

factor(type)4 0.31306 1.42833

N = 40, Events: 37, Censored: 3

Total time at risk: 5784

Log-likelihood = -203.4363, df = 9

AIC = 424.8727

일반화감마분포 gengamma분포의 경우 로그-우도 값이 -203.4059, AIC는 426.8117

와이블분포 wibull 분포의 경우 로그-우도 값이 -203.4363, AIC는 424.8727로 큰 차이는 없다. 그래프로 그려보면 아래와 같이 큰 차이가 없음을 알 수 있다.

데이터 시각화

> plot(weibull,xlab='time',ylab='survival function',ci=F)

> lines(gengamma,col='blue',lty=2,ci=F)

> legend('topright',c('weibull','generalized gamma'),lty=1:2,col=c('red','blue'))

출처: 보건정보데이터 분석(이태림, 이재원, 김주한, 장대흥 공저)

'KNOU > 2 보건 정보 데이터 분석' 카테고리의 다른 글

제6.5장 준모수적 방법 (0)	2017.01.26
제6.3장 비모수적 방법을 이용한 생존함수의 비교 (0)	2017.01.26
제6.2장 비모수적 방법 - 2. 누적한계추정법 (0)	2017.01.26
제6.2장 비모수적 방법 - 1. 생명표 방법 (0)	2017.01.26
제5.1장 공분산 분석 - 2 공변량이 둘 이상인 경우 (2)	2017.01.13

Posted by 마르띤

,

제6.3장 비모수적 방법을 이용한 생존함수의 비교

KNOU/2 보건 정보 데이터 분석 2017. 1. 26. 09:37

6.3 비모수적 방법을 이용한 생존함수의 비교

[예] 흑색종(melanoma) 환자들에 대한 BCG와 CP(coryne-bacterium parvum)의 생존지속 효과를 비교하기 위한 연구에서 30명의 흑색종 환자 중 11명은 BCG 처리를 받고 나머지 19명은 CP처리를 받았다고 한다. 중도절단이 포함되어 있는 경우에 이 두 그룹의 생존분포를 비교하기 위한 방법을 알아보자.

BCG 처리 그룹	33.7+	3.9	10.5	5.4	19.5	23.8+	7.9
BCG 처리 그룹	16.9+	16.6+	33.7+	17.1+
CP 처리 그룹	8.0	26.9+	21.4+	18.1+	16.0+	6.9	11.0+
	24.8+	23.0+	8.3	10.8+	12.2+	12.5+	24.4
	7.7	14.8+	8.2+	8.2+	7.8+

1. 데이터 입력

> library(survival)

> setwd('c:/Rwork')

> melanoma = read.table('melanoma.txt',header=T)

> head(melanoma,3)

癤퓍ime status x

1 33.7 0 BCG

2 3.9 1 BCG

3 10.5 1 BCG

> colnames(melanoma)<-c('time','status','x')

> head(melanoma)

time status x

1 33.7 0 BCG

2 3.9 1 BCG

3 10.5 1 BCG

4 5.4 1 BCG

5 19.5 1 BCG

6 23.8 0 BCG

> attach(melanoma)

2. 누적한계추정치(Kaplan-Meier 추정치)

> fit2 = survfit(Surv(time,status)~x,data=melanoma)

> summary(fit2)

Call: survfit(formula = Surv(time, status) ~ x, data = melanoma)

x=BCG

time n.risk n.event survival std.err lower 95% CI upper 95% CI

3.9 11 1 0.909 0.0867 0.754 1.000

5.4 10 1 0.818 0.1163 0.619 1.000

7.9 9 1 0.727 0.1343 0.506 1.000

10.5 8 1 0.636 0.1450 0.407 0.995

19.5 4 1 0.477 0.1755 0.232 0.981

x=CP

time n.risk n.event survival std.err lower 95% CI upper 95% CI

6.9 19 1 0.947 0.0512 0.852 1.000

7.7 18 1 0.895 0.0704 0.767 1.000

8.0 16 1 0.839 0.0854 0.687 1.000

8.3 13 1 0.774 0.1003 0.601 0.998

24.4 3 1 0.516 0.2211 0.223 1.000

> fit2

Call: survfit(formula = Surv(time, status) ~ x, data = melanoma)

n events median 0.95LCL 0.95UCL

x=BCG 11 5 19.5 10.5 NA

x=CP 19 5 NA 24.4 NA

3. 사망시점의 사분위수 추정치와 그의 신뢰구간

> quantile(fit2,probs=c(0.25,0.5,0.75),conf.int=T)

$quantile

25 50 75

x=BCG 7.9 19.5 NA

x=CP 24.4 NA NA

$lower

25 50 75

x=BCG 5.4 10.5 19.5

x=CP 8.0 24.4 24.4

$upper

25 50 75

x=BCG NA NA NA

x=CP NA NA NA

4. 데이터 시각화

> plot(fit2,xlab='time',ylab='survival function',lty=c(1,2),col=c(1,2))

> legend(5,0.2,c('cp 처리 그룹','BCG 처리 그룹'),lty=c(2,1),col=c(2,1))

> abline(h=0.5)

> abline(v=c(10.5,24.4))

5. 로그 순위 검정법(log-rank test)과 Gehan-Wilcoxon 검정법 비교

1) 로그 순위 검정법(log-rank test)

> survdiff(Surv(time,status)~x,data=melanoma)

Call:

survdiff(formula = Surv(time, status) ~ x, data = melanoma)

N Observed Expected (O-E)^2/E (O-E)^2/V

x=BCG 11 5 3.68 0.469 0.747

x=CP 19 5 6.32 0.274 0.747

Chisq= 0.7 on 1 degrees of freedom, p= 0.387

2) Gehan-Wilcoxon 검정법

> survdiff(Surv(time,status)~x,rho=1,data=melanoma)

Call:

survdiff(formula = Surv(time, status) ~ x, data = melanoma, rho = 1)

N Observed Expected (O-E)^2/E (O-E)^2/V

x=BCG 11 4.31 3.07 0.500 0.929

x=CP 19 4.10 5.34 0.288 0.929

Chisq= 0.9 on 1 degrees of freedom, p= 0.335

두 검정법 모두 p value가 0.05보다 크기 떄문에 유의하지 않다. 즉 BCG, CP 두 그룹 간의 생존함수는 유의한 차이를 보이지 않는다.

이상 그래프에서 보듯이 두 그룹의 누적한계추정치의 그래프도 교차되지 않고 나란한 형태를 보이므로 로그-순위 검정법이 타당한 것이었음을 알 수 있다.

출처: 보건정보데이터 분석 (이태림, 이재원, 김주한, 장대흥 공저)

'KNOU > 2 보건 정보 데이터 분석' 카테고리의 다른 글

제6.5장 준모수적 방법 (0)	2017.01.26
제6.4장 모수적 방법 (0)	2017.01.26
제6.2장 비모수적 방법 - 2. 누적한계추정법 (0)	2017.01.26
제6.2장 비모수적 방법 - 1. 생명표 방법 (0)	2017.01.26
제5.1장 공분산 분석 - 2 공변량이 둘 이상인 경우 (2)	2017.01.13

Posted by 마르띤

,

제6.2장 비모수적 방법 - 2. 누적한계추정법

KNOU/2 보건 정보 데이터 분석 2017. 1. 26. 09:37

비모수적 방법 non-parametric method

6.2.2 누적한계추정법 product-limit method

생명표 방법: 기간을 1년, 6개월 등 특정 단위로 나눠 구분

누적한계추정법: 매 사건이 발생할 때 마다 해당 시점을 표기

누적한계추정법(product-limit method)은 생존함수를 추정하는 대표적인 방법 중 하나로 연구자의 이름을 따서 Kaplan-Meier추정법이라고도 한다. 모든 환자의 생존시간 또는 중도절단 시간이 각각 관찰되었다고 하자. 모든 자료의 생존시간 도는 중도절단 x1,…,투을 순서대로 배열한 것을 t1<t2<…<tn이라 하고, δi = 0, 그렇지 않은 경우 δi =1로 정의한다. 즉 중도 절단 되지 않고 사건이 발생한 경우 status = 1, 중도절단된 경우 stats = 0 로 표기한다.

예] 신장이식수술을 받은 15명 환자들의 호전기간(remission duration)이 아래와 같다고 하자. 여기서 +로 표기된 것은 중도절단된 자료를 가르킨다. 각 시점에서 생존함수를 누적한계추정법을 이용하여 추정해보자

표. 신장이식 환자들의 호전기간 (단위 : 일)

3.0 4.0+ 4.5 4.5 5.5 6.0 6.4 6.5 7.0 7.5 8.4+ 10.0+ 10.0 12.0 15.0

1. 데이터 불러오기

> library(survival)

> setwd('c:/Rwork')

> kidney<-read.table('kidney.txt',header=T)

> kidney #status =1 사건, 0 = 절단, 절단 표시 매우 중요

time status

1 3.0 1

2 4.0 0

3 4.5 1

4 4.5 1

5 5.5 1

6 6.0 1

7 6.4 1

8 6.5 1

9 7.0 1

10 7.5 1

11 8.4 0

12 10.0 0

13 10.0 1

14 12.0 1

15 15.0 1

> attach(kidney)

2. 누적한계추정치(Kaplan-Meier 추정치)

> fit1 = survfit(Surv(time,status)~1, data=kidney) #~ 우측에는 공변량

> summary(fit1)

Call: survfit(formula = Surv(time, status) ~ 1, data = kidney)

time n.risk n.event survival std.err lower 95% CI upper 95% CI

3.0 15 1 0.933 0.0644 0.8153 1.000

4.5 13 2 0.790 0.1081 0.6039 1.000

5.5 11 1 0.718 0.1198 0.5177 0.996

6.0 10 1 0.646 0.1275 0.4389 0.951

6.4 9 1 0.574 0.1320 0.3660 0.901

6.5 8 1 0.503 0.1336 0.2984 0.846

7.0 7 1 0.431 0.1324 0.2358 0.787

7.5 6 1 0.359 0.1283 0.1781 0.723

10.0 4 1 0.269 0.1237 0.1094 0.663

12.0 2 1 0.135 0.1135 0.0258 0.703

15.0 1 1 0.000 NaN NA NA

> fit1

Call: survfit(formula = Surv(time, status) ~ 1, data = kidney)

n events median 0.95LCL 0.95UCL

15 12 7 6 NA

Error: invalid multibyte character in parser at line 1

-> fit1 = survfit(Surv(time,status)~1, data=kidney) #~ 우측에는 공변량

6.5일 에서의 생존확률은 50.3%, 7.0일 이 지나면 생존율이 43.1%로 50%이하가 된다.

3. 사망시점의 사분위수 추정치와 그의 신뢰구간, 가령 사망자가 50%되는 시점은 언제인가?

> quantile(fit1,probs=c(0.25,0.5,0.75),conf.int=T) #신뢰구간까지

$quantile

25 50 75

5.5 7.0 12.0

$lower

25 50 75

4.5 6.0 7.0

$upper

25 50 75

7.5 NA NA

-> 생존확률이 75%인 경우, 즉 사망확률이 25%인 경우의 시점은 5.5일, 생존확률이 50%인 경우 7.0일, 생존확율이 25%인 경우의 시점은 12.0 일

4. 누적한계추정치의 95% 신뢰구간 그래프

> plot(fit1,xlab='time',ylab='Survival function',lwd=2)

> legend(0.2,0.3,c('KM estimate','95% CI'),lty=c(1,2))

-> 점선은 신뢰구간을 의미, 실선은 생존함수추정치.생존확율이 50%인 경우는 약 7.0일임을 알 수 있다.

출처: 보건정보 데이터분석 (이태림, 이재원, 김주한, 장대흥 공저)

'KNOU > 2 보건 정보 데이터 분석' 카테고리의 다른 글

제6.4장 모수적 방법 (0)	2017.01.26
제6.3장 비모수적 방법을 이용한 생존함수의 비교 (0)	2017.01.26
제6.2장 비모수적 방법 - 1. 생명표 방법 (0)	2017.01.26
제5.1장 공분산 분석 - 2 공변량이 둘 이상인 경우 (2)	2017.01.13
제5.1장 공분산 분석 - 1. 공변량이 하나인 경우 (0)	2017.01.06

Posted by 마르띤

,

제6.2장 비모수적 방법 - 1. 생명표 방법

KNOU/2 보건 정보 데이터 분석 2017. 1. 26. 09:36

비모수적 방법 non-parametric method

6.2.1생명표 방법 life table method

생명표 방법 개념 추가 설명

예] 협심증(angina pectoris)이 있는 2,418명의 남성들에 대한 생존자료이다. 이 생명표에서 경과기관에 따른 생존확률을 구해보자

진단 후 경과 기관(단위: 년)	사망자 수	중도절단 수
( 0 – 1 ]	456	0
( 1 – 2 ]	226	39
( 2 – 3 ]	152	22
( 3 – 4 ]	171	23
( 4 – 5 ]	135	24
( 5 – 6 ]	125	107
( 6 – 7 ]	83	133
( 7 – 8 ]	74	102
( 8 – 9 ]	51	68
( 9 – 10 ]	42	64
( 10 – 11 ]	43	45
( 11 – 12 ]	34	53
( 12 – 13 ]	18	33
( 13 – 14 ]	9	27
( 14 – 15 ]	6	23
( 15 –	0	30

1. 데이터 입력

> library(KMsurv)

> setwd('C:/Rwork')

> 협심증환자자료 = read.csv('협심증환자자료.csv')

> head(협심증환자자료)

time censor freq

1 0.5 1 456

2 0.5 0 0

3 1.5 1 226

4 1.5 0 39

5 2.5 1 152

6 2.5 0 22

> attach(협심증환자자료)

2. lifetab 함수 연구

> lifetab

function (tis, ninit, nlost, nevent)

(이하 생략)

-> tis: 시간, 길이는 17, ninit = 전체 데이터, 2418명, nlost = 중도절단, nevent 사건발생

3. nevent 자료 만들기

> which(censor==1) #사망 데이터

[1] 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31

> 집단.사망=협심증환자자료 [which(censor==1),]

> head(집단.사망)

time censor freq

1 0.5 1 456

3 1.5 1 226

5 2.5 1 152

7 3.5 1 171

9 4.5 1 135

11 5.5 1 125

4. nlost 자료 만들기

> which(censor==0) #절단 데이터

[1] 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32

> 집단.절단=협심증환자자료[which(censor==0),]

> head(집단.절단)

time censor freq

2 0.5 0 0

4 1.5 0 39

6 2.5 0 22

8 3.5 0 23

10 4.5 0 24

12 5.5 0 107

5. ninit전체데이터 자료 만들기

> 사망자수=집단.사망[,3]

> 사망자수

[1] 456 226 152 171 135 125 83 74 51 42 43 34 18 9 6 0

> 절단자수=집단.절단[,3]

> 절단자수

[1] 0 39 22 23 24 107 133 102 68 64 45 53 33 27 23 30

> 합=사망자수+절단자수

> 합

[1] 456 265 174 194 159 232 216 176 119 106 88 87 51 36 29 30

> sum(합) #2418

[1] 2418

6. tis 시간 변수 자료 만들기

> 년 = floor(집단.사망$time) #floor 내림값

> 년

[1] 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

> lt=length(년)

> lt

[1] 16

> length(년)

[1] 17

> 년[lt+1] = NA

> 년[lt+1]

[1] NA

7. 생명표 만들기

> 생명표=lifetab(년,sum(합),절단자수,사망자수)

> 생명표

nsubs nlost nrisk nevent surv pdf hazard se.surv

0-1 2418 0 2418.0 456 1.0000000 0.18858561 0.20821918 0.000000000

1-2 1962 39 1942.5 226 0.8114144 0.09440394 0.12353102 0.007955134

2-3 1697 22 1686.0 152 0.7170105 0.06464151 0.09440994 0.009179397

3-4 1523 23 1511.5 171 0.6523689 0.07380423 0.11991585 0.009734736

4-5 1329 24 1317.0 135 0.5785647 0.05930618 0.10804322 0.010138361

5-6 1170 107 1116.5 125 0.5192585 0.05813463 0.11859583 0.010304216

6-7 938 133 871.5 83 0.4611239 0.04391656 0.10000000 0.010379949

7-8 722 102 671.0 74 0.4172073 0.04601094 0.11671924 0.010450930

8-9 546 68 512.0 51 0.3711964 0.03697464 0.10483042 0.010578887

9-10 427 64 395.0 42 0.3342218 0.03553750 0.11229947 0.010717477

10-11 321 45 298.5 43 0.2986843 0.04302654 0.15523466 0.010890741

11-12 233 53 206.5 34 0.2556577 0.04209376 0.17941953 0.011124244

12-13 146 33 129.5 18 0.2135639 0.02968456 0.14937759 0.011396799

13-14 95 27 81.5 9 0.1838794 0.02030570 0.11688312 0.011765989

14-15 59 23 47.5 6 0.1635737 0.02066194 0.13483146 0.012259921

15-NA 30 30 15.0 0 0.1429117 NA NA 0.013300258

se.pdf se.hazard

0-1 0.007955134 0.009697769

1-2 0.005975178 0.008201472

2-3 0.005069200 0.007649121

3-4 0.005428013 0.009153696

4-5 0.004945997 0.009285301

5-6 0.005033980 0.010588867

6-7 0.004690538 0.010962697

7-8 0.005175094 0.013545211

8-9 0.005024599 0.014659017

9-10 0.005307615 0.017300846

10-11 0.006269963 0.023601647

11-12 0.006847514 0.030646128

12-13 0.006682743 0.035110295

13-14 0.006514794 0.038894448

14-15 0.008035120 0.054919485

15-NA NA NA

nsubs	nlost	nrisk	nevent	surv
생존자수	중도절단수	유효인원수	사망자수	생존함수

pdf	hazard	se.surv	se.pdf	se.hazard
확률밀도 함수	위험함수	생존함수의 표준오차	확률밀도 함수의 표준오차	위험함수의 표준오차

-> 5번째 열 surv는 생존 함수, 7번째 열 hazard는 위험 함수. 협심증 환자의 약 19%가 1년 이내, 약 28%가 2년 이내에 사망하는 것으로 추정된다. 따라서 협심증 환자가 2년 이상 생존할 확률은 약 72%가 된다는 것을 알 수 있다. 또한 5년 이상 생존할 확률은 약 52%이다.

#전체 환자 중 생존확율이 70% 되는 지점

> names(생명표)

[1] "nsubs" "nlost" "nrisk" "nevent" "surv" "pdf"

[7] "hazard" "se.surv" "se.pdf" "se.hazard"

> which.min(abs(생명표$surv-0.7))

[1] 3

> 생명표[3,]

nsubs nlost nrisk nevent surv pdf hazard se.surv

2-3 1697 22 1686 152 0.7170105 0.06464151 0.09440994 0.009179397

se.pdf se.hazard

2-3 0.0050692 0.007649121

-> abs:절대값, which.min 최소값, 또는 생명표에서 3번째 행을 보면 survival이 70%에 가장 가까이 접근했음을 알 수 있다. 2년 이상 생존할 확률은 72%

#전체 환자 중 생존확율이 50% 되는 지점

> which.min(abs(생명표$surv-0.5))

[1] 6

> 생명표[6,]

nsubs nlost nrisk nevent surv pdf hazard se.surv

5-6 1170 107 1116.5 125 0.5192585 0.05813463 0.1185958 0.01030422

se.pdf se.hazard

5-6 0.00503398 0.01058887

-> 5년이 지나면 surv 즉 생존할 확률이 약 52%가 됨을 알 수 있다.

8. 데이터 시각화 – 생존함수 추정치 그래프

> plot(년[1:lt], 생명표[,5],type='s',xlab='year',ylab='Survival function',ylim=c(0,1),lwd=2)

> abline(h=0.5)

> abline(v=5)

> plot(년[1:lt], 생명표[,5],type='o',xlab='year',ylab='Survival function',ylim=c(0,1),lwd=2)

> abline(h=0.5)

> abline(v=5)

9. 데이터 시각화 – 위험함수 추정치 그래프

> names(생명표)

[1] "nsubs" "nlost" "nrisk" "nevent" "surv" "pdf"

[7] "hazard" "se.surv" "se.pdf" "se.hazard"

> mean(생명표$hazard)

[1] NA

> 생명표$hazard

[1] 0.20821918 0.12353102 0.09440994 0.11991585 0.10804322 0.11859583

[7] 0.10000000 0.11671924 0.10483042 0.11229947 0.15523466 0.17941953

[13] 0.14937759 0.11688312 0.13483146 NA

> mean(생명표$hazard,na.rm=T) #NA 값 제외한 평균

[1] 0.1294874

> plot(년[1:lt], 생명표[,7],type='s',xlab='년',ylab='Hazard function',ylim=c(0,0.25),lwd=2)

> abline(h=0.1294874)

> plot(년[1:lt], 생명표[,7],type='o',xlab='년',ylab='Hazard function',ylim=c(0,0.25),lwd=2)>

> abline(h=0.1294874)

출처: 보건정보 데이터분석 (이태림, 이재원, 김주한, 장대흥 공저)

'KNOU > 2 보건 정보 데이터 분석' 카테고리의 다른 글

제6.3장 비모수적 방법을 이용한 생존함수의 비교 (0)	2017.01.26
제6.2장 비모수적 방법 - 2. 누적한계추정법 (0)	2017.01.26
제5.1장 공분산 분석 - 2 공변량이 둘 이상인 경우 (2)	2017.01.13
제5.1장 공분산 분석 - 1. 공변량이 하나인 경우 (0)	2017.01.06
제4장 범주형 자료의 분석 - 4.3 로짓분석 (0)	2017.01.04

Posted by 마르띤

,

제5.1장 공분산 분석 - 2 공변량이 둘 이상인 경우

KNOU/2 보건 정보 데이터 분석 2017. 1. 13. 10:06

[예] 어떤 약물에 대한 체내 배출연구에서 얻은 자료이다. 연구자는 약의 형태에 따라 체내로부터 배출되는 약물의 양이 달라지는지를 알고자 한다. 그런데 배출되는 약물의 양은 약의 형태뿐만 아니라 배출된 약물을 측정한 시간과 각 개체의 항신진대사 점수에도 영향을 받을 것으로 생각한다. 이러한 경우에는 측정시간과 항신진대사 점수를 2개의 공변량으로 하여 이들을 제어한 약의 형태에 대한 효과를 공분산분석을 통해 알 수 있다.

관측번호	약의형태(trt)	항신진대사점수(x1)	소요시간(x2)	약물량(y)
1	1	37	61	11.3208
2	2	37	37	12.9151
3	3	45	53	18.8947
…	…	…	…	…

공변량이 2개 이상인 경우에는 공변량이 하나인 경우의 모형을 그대로 확장해서 각 모수의 추정과 검정을 할 수 있다.

<공분산분석을 위한 두 가지 가정>

1) 각 처리 안에서 반응변수Y에 미치는 공변량x의 효과가 모두 동일해야 한다. 즉, 회귀계수가 모든 약의 형태에 대해서 동일해야 하며, 교호작용이 없어야 한다.

2) 공변량x 효과가 0이 아니다. 효과가 0이라면 분산분석을 하면 된다.

2. 공분산분석에서의 검정

1) H0: β1 = 0 항신진대사의 효과가 없음

2) H0: β2 = 0 소요시간의 효과가 없음

이상 2개의 공변량 효과를 제어한 후 배출된 약물량의 모평균이 약의 형태type에 따라 차이가 있는가를 검정할 수 있는데, 이를 검정하기 위한 귀무가설은 아래와 같다.

3) H0 : α1 = α2 = ... = αI

1. library 호출 및 데이터 불러오기

> library(lsmeans)

> setwd('C:/Rwork')

> drug = read.csv('약물배출량자료.csv')

> head(drug)

관측번호 약형태 항신진대사점수 소요시간 약물량

1 1 1 37 61 11.3208

2 2 2 37 37 12.9151

3 3 3 45 53 18.8947

4 4 4 41 41 14.6739

5 5 5 57 41 8.6493

6 6 6 49 33 9.5238

> colname<-c('obs','type','x1','x2','y')

> colnames(drug)<-colname

> head(drug)

obs type x1 x2 y

1 1 1 37 61 11.3208

2 2 2 37 37 12.9151

3 3 3 45 53 18.8947

4 4 4 41 41 14.6739

5 5 5 57 41 8.6493

6 6 6 49 33 9.5238

> attach(drug)

2. 회귀계수의 동일성 검정(교호작용 존재 확인)

공분산 분석을 위한 중요한 가정으로 교호작용이 존재하는지 점검한다. 교호작용이 존재하면 공분산분석이 아닌 분산분석을 실시한다.

> model1 = aov(y~factor(type) + factor(type)*x1 + factor(type)*x2 , data = drug)

> summary(model1)

Df Sum Sq Mean Sq F value Pr(>F)

factor(type) 5 250.3 50.1 2.099 0.113

x1 1 696.6 696.6 29.206 3.9e-05 ***

x2 1 54.4 54.4 2.282 0.148

factor(type):x1 5 160.8 32.2 1.349 0.289

factor(type):x2 5 42.3 8.5 0.355 0.872

Residuals 18 429.3 23.9

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘

-> 공변량이 2개 이므로 우변에 * 형태로 입력

귀무가설 H0 : 교호작용이 존재하지 않는다.

대립가설 H1 : 교호작용이 존재한다.

p-value: x1 항신진대사점수 – 0.289

x2 소요시간 – 0.872

의사결정: 유의수준 5% 하에서 귀무가설을 기각할 수 없다.

결론: 두 공변량(항신진대사점수, 소요시간)과 약의 형태 사이에 교호작용이 존재하지 않으므로 공분산분석을 할 수 있다. ( = 각 처리 안에서 반응변수Y에 미치는 공변량x의 효과가 모두 동일하다.)

3. 이원공분산분석 (Two-way ANOVA)

> model2 = aov(y~factor(type) + x1 + x2, data=drug)

> summary(model2)

Df Sum Sq Mean Sq F value Pr(>F)

factor(type) 5 250.3 50.1 2.216 0.0808 .

x1 1 696.6 696.6 30.837 6.13e-06 ***

x2 1 54.4 54.4 2.409 0.1319

Residuals 28 632.5 22.6

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

-> 2개의 공변량을 보정하지 않았을 때의 F-값과 p값은 각각 2.216, 0.0808으로 유의수준 5%하에서 유의하지 않다.

귀무가설 H0 : α1 = α2 = ... = αI

대립가설 H1 : 최소한 하나 이상의 약은 효과가 있다.

p-value: 0.0808

의사결정: 유의수준 5% 하에서 귀무가설을 기각할 수 없다.

결론: 약의 형태에 따라 배출된 약물량의 차이가 없다.

3-1. 공변량 효과 제어 시 치료법의 효과 검정

> model3 = lm(y~factor(type) + x1 + x2, data=drug)

> summary(model3)

Call:

lm(formula = y ~ factor(type) + x1 + x2, data = drug)

Residuals:

Min 1Q Median 3Q Max

-7.222 -2.634 -0.379 1.475 9.646

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 36.6370 8.9591 4.089 0.000331 ***

factor(type)2 0.8965 2.7823 0.322 0.749677

factor(type)3 7.9097 2.7684 2.857 0.007973 **

factor(type)4 3.0722 2.8247 1.088 0.286025

factor(type)5 9.5434 2.8534 3.345 0.002355 **

factor(type)6 5.8389 2.8391 2.057 0.049149 *

x1 -0.7606 0.1375 -5.531 6.51e-06 ***

x2 0.1647 0.1061 1.552 0.131868

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 4.753 on 28 degrees of freedom

Multiple R-squared: 0.6129, Adjusted R-squared: 0.5161

F-statistic: 6.332 on 7 and 28 DF, p-value: 0.0001641

귀무가설 H0 : β1 = β2 = 0 공변량(항신진대사, 소요시간)의 효과가 없음

H0 : α1 = α2 = ... = αI

대립가설 not H0

p-value : 0.0001641

의사결정: 귀무가설을 강하게 기각한다. 5%의 유의수준 하에서 매우 유의하다.

결론: 우리가 세운 모형의 자료에 적합하다는 것을 알 수 있다. 배출된 약물량의 모평균이 약 형태type의 효과와 공변량들의 효과가 없다라고 말할 수 없다.

4. 공변량 효과 제어시 치료법의 효과 검정 - 모형 제곱합

1)제1종 제곱합(Type I SS): SS(type)

> model2 = aov(y~factor(type) + x1 + x2, data=drug)

> summary(model2)

Df Sum Sq Mean Sq F value Pr(>F)

factor(type) 5 250.3 50.1 2.216 0.0808 .

x1 1 696.6 696.6 30.837 6.13e-06 ***

x2 1 54.4 54.4 2.409 0.1319

Residuals 28 632.5 22.6

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

OR

> summary(aov(y~factor(type)+x1+x2,data=drug))

Df Sum Sq Mean Sq F value Pr(>F)

factor(type) 5 250.3 50.1 2.216 0.0808 .

x1 1 696.6 696.6 30.837 6.13e-06 ***

x2 1 54.4 54.4 2.409 0.1319

Residuals 28 632.5 22.6

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’

-> 결과해석: 약의 형태type가 기여한 제1종 제공합의 p-value는 0.0808로 유의수준 5%하에서 유의하지 않다.

2)제3종 제곱합(Type III SS): SS(type | x1, x2)

> summary(aov(y~x1+x2+factor(type),data=drug))

Df Sum Sq Mean Sq F value Pr(>F)

x1 1 516.5 516.5 22.867 5.03e-05 ***

x2 1 62.8 62.8 2.779 0.1067

factor(type) 5 422.0 84.4 3.736 0.0102 *

Residuals 28 632.5 22.6

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘

-> 결과해석: x1,2 given type, 공변량x1,x2가 기여한 상태에서 순수하게 약의 형태type가 기여한 제3종 제공합의 p-value는 0.0102로 유의수준 5%하에서 유의하다.

5. 각 수준 별 추정치를 알아보자.

> model3 = lm(y~factor(type) + x1 + x2, data=drug)

> summary(model3)

Call:

lm(formula = y ~ factor(type) + x1 + x2, data = drug)

Residuals:

Min 1Q Median 3Q Max

-7.222 -2.634 -0.379 1.475 9.646

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 36.6370 8.9591 4.089 0.000331 ***

factor(type)2 0.8965 2.7823 0.322 0.749677

factor(type)3 7.9097 2.7684 2.857 0.007973 **

factor(type)4 3.0722 2.8247 1.088 0.286025

factor(type)5 9.5434 2.8534 3.345 0.002355 **

factor(type)6 5.8389 2.8391 2.057 0.049149 *

x1 -0.7606 0.1375 -5.531 6.51e-06 ***

x2 0.1647 0.1061 1.552 0.131868

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 4.753 on 28 degrees of freedom

Multiple R-squared: 0.6129, Adjusted R-squared: 0.5161

F-statistic: 6.332 on 7 and 28 DF, p-value: 0.0001641

-> 출력결과 유의하게 나타나는 것은 3,5,번째 약의 형태의 추정치들이 첫 번째 약의 형태와의 차이를 타나내는데 p-값이 유의수준 5% 하에서 유의하다. 항신진대사 점수(x1)는 p 값이 <0.0001로 유의수준 5%하에서 매우 유의하지만 약의 배출 소요시간(x2)은 p 값이 0.131868로 유위수준 5%하에서 유의하지 않은 것으로 나타났다. 위의 출력 결과를 바탕으로 약의 형태별 공분산모형식을 쓰면 다음과 같다.

ŷ_1j = β^₀ + α^₁ + β^1x₁₁_j₊β^2x₂₁_j = 36.637 + 0 - 0.761 x₁₁_j + 0.165x₂₁_j

ŷ_2j = β^₀ + α^₂ + β^1x₁₂_j₊β^2x₂₁_j = 36.637 + 0.897- 0.761 x₁₂_j + 0.165x₂₂_j

ŷ_3j = β^₀ + α^₃ + β^1x₁₃_j₊β^2x₂₁_j = 36.637 + 7.908 - 0.761 x₁₃_j + 0.165x₂₃_j

ŷ_4j = β^₀ + α^₄ + β^1x₁₄_j₊β^2x₂₁_j = 36.637 + 3.072 - 0.761 x₁₄_j + 0.165x₂₄_j

ŷ_5j = β^₀ + α^₅ + β^1x₁₅_j₊β^2x₂₁_j = 36.637 +9.544 - 0.761 x₁₅_j + 0.165x₂₅_j

ŷ6_j = β^₀ + α^₆ + β^1x₁₆_j₊β^2x₂₆_j = 36.637 + 5.839 - 0.761 x₁₆_j + 0.165x₂₆_j

위의 식에 나타난 각 회귀식의 추정결과 모든 약의 형태에 대해서 항신진대사 점수(x1)와 약의 배출 소요시간(x2)의 회귀계수는 동일하다. 약의 배출 소요시간을 제어한 항신진대사 점수의 효과를 보면 항신진대사 점수가 1단위 높아짐에 따라 약의 배출량은 0.761만큼 감소하고 통계적으로 유의한 효과가 있고, 항신진대사 점수를 제어한 약의 배출 소요시간은 1단위 증가할수록 0.165만큼 증가하지만 그 효과는 유의하지 않다.

6. LSMEANS(Adjusted means) 계산

> lsmeans(model3,~type)

type lsmean SE df lower.CL upper.CL

1 5.674385 1.991087 28 1.595828 9.752942

2 6.570912 1.946518 28 2.583650 10.558174

3 13.584122 1.969292 28 9.550210 17.618034

4 8.746633 1.955440 28 4.741095 12.752171

5 15.217831 1.987611 28 11.146394 19.289268

6 11.513284 1.980761 28 7.455879 15.570690

Confidence level used: 0.95

-> 각 약의 형태에 대한 LSMEAN(보정된 평균)값이 출력되어 있다. 보정된 평균은 항신진대사 점수x1와 소요시간x2의 효과를 제어했을 때 반응변수Y인 배출되는 약물량의 평균값이다. 앞의 식에서 각 약의 형태의 회귀식의 공변량값에 전체 평균값을 넣어서 약의 형태별 보정된 평균(adjusted mean)을 아래 식과 같이 계산할 수 있다.

y bar_ad1 = 36.387 + 0 – 0.761*51.22 + 0.165*48.56 = 5.67

y bar_ad2 = 36.387 + 0.897 – 0.761*51.22 + 0.165*48.56 = 6.57

y bar_ad3 = 36.387 + 7.908 – 0.761*51.22 + 0.165*48.56 = 13.59

y bar_ad4 = 36.387 + 3.072 – 0.761*51.22 + 0.165*48.56 = 8.75

y bar_ad5 = 36.387 + 9.544 – 0.761*51.22 + 0.165*48.56 = 15.22

y bar_ad6 = 36.387 + 5.839 – 0.761*51.22 + 0.165*48.56 = 11.51

보정된 평균값을 보면 첫 번째와 두 번째 약의 형태의 보정된 평균값이 다소 작고 세 번째, 다섯 번째, 여섯 번째 약의 형태에 대한 보정된 평균값이 크다는 것을 알 수 있다.

6. 처리 간 다중비교

> model3.lsm = lsmeans(model3,pairwise ~ type, glhargs = list())

> print(model3.lsm,omit=1)

$lsmeans

type lsmean SE df lower.CL upper.CL

1 5.674385 1.991087 28 1.595828 9.752942

2 6.570912 1.946518 28 2.583650 10.558174

3 13.584122 1.969292 28 9.550210 17.618034

4 8.746633 1.955440 28 4.741095 12.752171

5 15.217831 1.987611 28 11.146394 19.289268

6 11.513284 1.980761 28 7.455879 15.570690

Confidence level used: 0.95

$contrasts

contrast estimate SE df t.ratio p.value

1 - 2 -0.8965269 2.782316 28 -0.322 0.9995

1 - 3 -7.9097368 2.768397 28 -2.857 0.0771

1 - 4 -3.0722481 2.824671 28 -1.088 0.8822

1 - 5 -9.5434459 2.853395 28 -3.345 0.0257

1 - 6 -5.8388992 2.839070 28 -2.057 0.3378

2 - 3 -7.0132099 2.783087 28 -2.520 0.1525

2 - 4 -2.1757212 2.753630 28 -0.790 0.9669

2 - 5 -8.6469191 2.802553 28 -3.085 0.0468

2 - 6 -4.9423723 2.758561 28 -1.792 0.4869

3 - 4 4.8374887 2.801787 28 1.727 0.5266

3 - 5 -1.6337091 2.782316 28 -0.587 0.9911

3 - 6 2.0708376 2.840329 28 0.729 0.9766

4 - 5 -6.4711978 2.783344 28 -2.325 0.2178

4 - 6 -2.7666511 2.753890 28 -1.005 0.9125

5 - 6 3.7045468 2.831753 28 1.308 0.7781

P value adjustment: tukey method for comparing a family of 6 estimates

위의 결과를 보면 약의 형태 5의 경우 보정된 평균이 형태 1과 2와 유의하게 차이가 나는 것을 볼 수 있다.

> names(model3.lsm)

[1] "lsmeans" "contrasts"

> plot(model3.lsm[[1]])

> plot(model3.lsm[[2]])

->Tukey(HSD) 검정 결과를 신뢰구간으로 보면, 1-5, 2-5가 유의함을 알 수 있다.

Dunnett vs Tukey

다중분석 하기 전 순서형인 type 변수를 명목형 변수로 변경

> str(drug)

'data.frame': 36 obs. of 5 variables:

$ obs : int 1 2 3 4 5 6 7 8 9 10 ...

$ type: int 1 2 3 4 5 6 1 2 3 4 ...

$ x1 : int 37 37 45 41 57 49 49 53 53 53 ...

$ x2 : int 61 37 53 41 41 33 49 53 45 53 ...

$ y : num 11.32 12.92 18.89 14.67 8.65 ...

> drug$type<-as.factor(drug$type)

> summary(drug)

obs type x1 x2 y

Min. : 1.00 1:6 Min. :37.00 Min. :33.00 Min. : 0.0017

1st Qu.: 9.75 2:6 1st Qu.:49.00 1st Qu.:45.00 1st Qu.: 5.9561

Median :18.50 3:6 Median :53.00 Median :49.00 Median : 8.4527

Mean :18.50 4:6 Mean :51.22 Mean :48.56 Mean :10.2179

3rd Qu.:27.25 5:6 3rd Qu.:53.00 3rd Qu.:53.00 3rd Qu.:13.9175

Max. :36.00 6:6 Max. :61.00 Max. :65.00 Max. :28.1828

> model4<-lm(y~type+x1+x2,data=drug)

다중 분석 시작

> library(multcomp)

> tukey<-glht(model4,linfct=mcp(type='Tukey'))

> summary(tukey)

Simultaneous Tests for General Linear Hypotheses

Multiple Comparisons of Means: Tukey Contrasts

Fit: lm(formula = y ~ type + x1 + x2, data = drug)

Linear Hypotheses:

Estimate Std. Error t value Pr(>|t|)

2 - 1 == 0 0.8965 2.7823 0.322 0.9995

3 - 1 == 0 7.9097 2.7684 2.857 0.0771 .

4 - 1 == 0 3.0722 2.8247 1.088 0.8821

5 - 1 == 0 9.5434 2.8534 3.345 0.0257 *

6 - 1 == 0 5.8389 2.8391 2.057 0.3374

3 - 2 == 0 7.0132 2.7831 2.520 0.1524

4 - 2 == 0 2.1757 2.7536 0.790 0.9669

5 - 2 == 0 8.6469 2.8026 3.085 0.0469 *

6 - 2 == 0 4.9424 2.7586 1.792 0.4867

4 - 3 == 0 -4.8375 2.8018 -1.727 0.5265

5 - 3 == 0 1.6337 2.7823 0.587 0.9911

6 - 3 == 0 -2.0708 2.8403 -0.729 0.9766

5 - 4 == 0 6.4712 2.7833 2.325 0.2178

6 - 4 == 0 2.7667 2.7539 1.005 0.9124

6 - 5 == 0 -3.7045 2.8318 -1.308 0.7780

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Adjusted p values reported -- single-step method)

> plot(tukey)

->Tukey(HSD) 검정 결과를 신뢰구간으로 보면, 1-5, 2-5가 유의함을 알 수 있다.

> dunnett <- glht(model4,linfct=mcp(type='Dunnett'))

> summary(dunnett)

Simultaneous Tests for General Linear Hypotheses

Multiple Comparisons of Means: Dunnett Contrasts

Fit: lm(formula = y ~ type + x1 + x2, data = drug)

Linear Hypotheses:

Estimate Std. Error t value Pr(>|t|)

2 - 1 == 0 0.8965 2.7823 0.322 0.9974

3 - 1 == 0 7.9097 2.7684 2.857 0.0324 *

4 - 1 == 0 3.0722 2.8247 1.088 0.7130

5 - 1 == 0 9.5434 2.8534 3.345 0.0103 *

6 - 1 == 0 5.8389 2.8391 2.057 0.1733

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Adjusted p values reported -- single-step method)

> plot(dunnett)

7. 모형 적합성 검토

> par(mfrow=c(2,2))

> plot(model3)

-> 등분산성, 정규성 가정에는 큰 문제가 없음을 알 수 있다.

출처: 보건정보데이터 분석(이태림, 이재원, 김주한, 장대흥 공저), R을 이용한 누구나 하는 통계분석(안재형 저)

'KNOU > 2 보건 정보 데이터 분석' 카테고리의 다른 글

제6.2장 비모수적 방법 - 2. 누적한계추정법 (0)	2017.01.26
제6.2장 비모수적 방법 - 1. 생명표 방법 (0)	2017.01.26
제5.1장 공분산 분석 - 1. 공변량이 하나인 경우 (0)	2017.01.06
제4장 범주형 자료의 분석 - 4.3 로짓분석 (0)	2017.01.04
제4장 범주형 자료의 분석 - 4.2.4 대응자료 및 사례 - 대조군 검정 (0)	2016.12.29

Posted by 마르띤

,

제5.1장 공분산 분석 - 1. 공변량이 하나인 경우

KNOU/2 보건 정보 데이터 분석 2017. 1. 6. 14:32

[예] 당뇨병에 걸린 20명의 환자에 대해 혈당을 낮추는 서로 다른 다섯가지 치료법의 효능을 비교하고자 환자 20명을 랜덤하게 5룹으로 나누어 각각의 치료법을 적용하여 한달 후의 혈당량 수치를 측정하였다.

그러나 한 달 후의 혈당량 수치가 초기 혈당량 수치에 영향을 받을 것으로 생각하여 초기 혈당량

수치도함께 측정하였다

관측번호	치료법(trt)	x(초기수치)	y(한달 후 수치)
1	A	27.2	32.6
2	B	22	36.6
…
…

- 독립변수: 치료법(trt)

- 공변량: x(초기 혈당 수치)

- 반응변수: y(한달 후 혈당 수치)

- 반응변수y의 모평균에 영향을 끼칠 수 있는 또 다른 변수가 존재 -> 공변량의 영향을 고려해야 함.

1. 문제제기 - 공분산 분석의 필요성

치료법(trt)에 따른 혈당이 낮아지는 효과를 알아보려 하였으나 초기수치(x)가 낮은 경우 한달 후 수치(y)도 낮아질 것으로 예상된다면, 정확한 치료법(trt)의 효과를 알 수가 없다. 이 때 반응변수 y에 영향을 끼칠 수 있는 또 다른 변수 초기수치(x)에 대해 공변량(Covariate)라 하고, 초기수치(x)를 보정한 상태(adjusted)에서 한달 후 혈당량 수치의(y) 보정된 모평균에 차이가 있는지 보는 것을 공분산분석(Analysis of Covariance: ANCOVA)라 한다. 공분산 분석은 회귀분석과 분산분석의 결합으로 각 처리안에서 공변량을 설명변수 x로 하여 회귀분석을 실시하며, 이렇게 공변량을 고려하면 이를 고려하지 않은 분산분석보다 추정의 정도(precision)을 높일 수 있다.

2. 공분산분석을 위한 두 가지 가정

1) 각 처리 안에서 반응변수Y에 미치는 공변량x의 효과가 모두 동일해야 한다. 즉 교호작용이 없어야 한다.

2) 공변량x 효과가 0이 아니다. 효과가 0이라면 분산분석을 하면 된다.

3. 공분산 모형

yij = β0 + αi + βXij + εij

- Yij : i번째 처리에서 j번째 개체의 반응값

- Xij : i번째 처리에서 j번째 개체의 공변량 값

- αi : 처리의 효과

- β : 모든 처리에 공통으로 작용하는 공변량의 효과

- ε : 등분산을 갖는 정규분포를 따른다고 가정

4. 각 모수의 검정

1) H01: β = 0

- 귀무가설은 처리효과를 제어한 상태에서 반응변수Y에 미치는 공변량효과가 없다는 가정을 검정.

- 만약 처리와 공변량 사이에 교호작용이 존재하면 처리간에 회귀계수가 동일하지 않다는 것을 의미하고, 귀무가설이 기각되지 않으면 분산분석 시행

2) H02 : α1 = α2 = ... = αI

- 공변량 효과를 제어한 상태에서 처리 간 반응변수의 차이가 있는지를 검정

-> 통계 모형을 통해 진짜 알려고 하는 내용

이상 내용에 대해 R 분석을 한 내용은 아래와 같다.

1. library 호출 및 데이터 입력

> library(HH)

> library(lsmeans)

> glucose = read.csv('혈당량자료.csv',header=T)

> head(glucose)

관측번호 치료법 초기혈당량 치료후혈당량

1 1 A 27.2 32.6

2 2 A 22.0 36.6

3 3 A 33.0 37.7

4 4 A 26.8 31.0

5 5 B 28.6 33.8

6 6 B 26.8 31.7

> colname<-c('obs','trt','x','y')

> colnames(glucose)<-colname

> head(glucose)

obs trt x y

1 1 A 27.2 32.6

2 2 A 22.0 36.6

3 3 A 33.0 37.7

4 4 A 26.8 31.0

5 5 B 28.6 33.8

6 6 B 26.8 31.7

> attach(glucose)

2. 회귀계수의 동일성 검정 (교호작용 존재 확인)

공분산분석을 하기 전에 먼저 살펴보아야 할 가정 중의 하나가 바로 처리 간 회귀계수 β의 동일성이다.즉, 처리마다 공변량 효과가 동일해야 함을 의미하는데 만약 처리와 공변량 사이에 교호작용이 존재하면 처리 간에 회귀 계수가 동일하지 않다는 것을 의미하고, 이 경우 공분산 분석을 하는 것은 바람직하지않다.

따라서 먼저 둘 사이에 교호작용이 존재하는가의 여부를 살펴본 후 공분산 분석을 해야 한다.

첫번째 귀무가설은 처리효과를 제어한 반응변수Y에 미치는 공변량 효과를 검정하기 위한 것이다.

귀무가설 H01: β = 0

대립가설 H11: β ≠ 0

두 번째 귀무가설은 공변량 효과를 제어한 상태에서 처리 간 반응변수의 차이가 있는지를 검정.

귀무가설 H02 : α1 = α2 = … = αI

대립가설 H12 : not H02

위 두 가지 귀무가설이 기각되지 않으면 공분산분석을 하지 않고 분산분석을 해야 한다.

> model1 = aov(y~factor(trt)*x,data=glucose)

> summary(model1)

Df Sum Sq Mean Sq F value Pr(>F)

factor(trt) 4 198.41 49.60 15.868 0.000248 ***

x 1 92.53 92.53 29.601 0.000285 ***

factor(trt):x 4 36.48 9.12 2.917 0.077290 .

Residuals 10 31.26 3.13

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

-> aov함수: 공분산분석의 가정 중 하나인 처리 간 회귀계수의 동일성을 확인하기 위해 처리와 공변량 사이의 교호작용의 유무를 검정. aov함수의 우변에 factor(trt) * 공변량 X를 입력. 치료법 trt앞에 factor를 입력하는 것은 치료법trt를 의미하는 ABCDE는 각각 명목형 변수이기 때문.

귀무가설 H01: 교호작용이 존재하지 않는다.

대립가설 H11: 교호작용이 존재한다.

p-value : 0.077290

의사결정: 유의수준 5% 하에서 귀무가설을 기각할 수 없다.

결론: 교호작용이 존재하지 않으므로 공분산분석을 할 수 있다. ( = 각 처리 안에서 반응변수Y에 미치는 공변량x의 효과가 모두 동일하다.)

Ancova(HH Library)함수를 이용하면, 치료법 간 공변량의 효과가 동일하다는 가정을 할 수 있는 xyplot을 그릴 수 있다.

> ancova(y~trt*x,data=glucose)

Analysis of Variance Table

Response: y

Df Sum Sq Mean Sq F value Pr(>F)

trt 4 198.407 49.602 15.8683 0.0002484 ***

x 1 92.528 92.528 29.6012 0.0002846 ***

trt:x 4 36.476 9.119 2.9173 0.0772904 .

Residuals 10 31.258 3.126

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1

-> HH라이브러리 ancova 함수는 aov함수와 동일한 기능, trellis 그림인 xyplot시각화 기능 제공.함수 출력 결과는 위 aov함수와 동일하며, F값은 2.92, p-value는 0.0773으로 유의수준 5% 하에서 유의하지 않으므로 귀무가설을 기각할 수 없다.따라서 공변량과 처리 사이에 교호작용이 존재하지 않으므로 공분산분석을 할 수 있다는 것을 알 수 있다.

3. 일원 공분산분석 (One-way ANCOVA) - 공변량 효과 제어 시 치료법의 효과 검정

처리 간 공변량의 효과가 동일하다는 가정을 확인한 후 공분산 분석을 출력

> model2 = lm(y~factor(trt)+x,data=glucose)

> summary(model2)

Call:

lm(formula = y ~ factor(trt) + x, data = glucose)

Residuals:

Min 1Q Median 3Q Max

-3.1360 -1.0024 -0.2827 0.7257 6.0806

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 13.9437 4.8219 2.892 0.011834 *

factor(trt)B -2.7685 1.5554 -1.780 0.096793 .

factor(trt)C -1.6660 1.6186 -1.029 0.320776

factor(trt)D -1.6284 1.5618 -1.043 0.314787

factor(trt)E -4.5903 1.9115 -2.401 0.030788 *

x 0.7534 0.1723 4.373 0.000637 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.2 on 14 degrees of freedom

Multiple R-squared: 0.8112, Adjusted R-squared: 0.7437

F-statistic: 12.03 on 5 and 14 DF, p-value: 0.0001164

-> lm 함수: 공분산분석에는 lm함수를 사용. ~를 중심으로 좌변에는 반응변수y, 우변에는 치료법trt와 공변량 x를 입력하고 그 사이는 *가 아닌 +를 사용.

귀무가설 H01: β = 0

H02 : α1 = α2 = … = αI

대립가설 H11: β ≠ 0

H12 : not H02

p-value : 0.0001164

의사결정: 유의수준 5% 하에서 귀무가설을 매우 강하게 기각할 수 있다.

결론: 우리가 세운 모형의 자료에 적합하다는 것을 알 수 있다. 낮아진 혈당량의 모평균이 처trt의 효과와 공변량들의 효과가 없다라고 말할 수 없다.유의수준 5%하에서 혈당량의 초기수치(x)가 즉 모든 공변량이 0이라는 귀무가설을 기각할만한 증거가 충분하다.

-> 결과 해석:

- 치료법A를 0으로 둘 때 치료법E p-value가 0.030788으로 유의하게 차이가 난다는 것을 알 수 있다.

1종 제곱합과 회귀계수 동일성 확인 위한 xyplot 그래프는 아래와 같다.

> ancova(y~trt+x,data=glucose)

Analysis of Variance Table

Response: y

Df Sum Sq Mean Sq F value Pr(>F)

trt 4 198.407 49.602 10.252 0.0004301 ***

x 1 92.528 92.528 19.125 0.0006369 ***

Residuals 14 67.734 4.838

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’

-> ancova(y~trt+x,data=glucose), 공분산분석이므로 *가 아닌 +를 입력.

-> 그래프 결과해석: 5개 그래프의 적합회귀식 절편은 다르지만 기울기는 동일하므로 공변량 효과가 처리마다 다르지 않음을 알 수 있다. “2. 공분산분석을 위한 두 가지 가정” 중 첫 번째 내용 “각 처리 안에서 반응변수Y에 미치는 공변량x의 효과가 모두 동일해야 한다. 즉 교호작용이 없어야 한다.”을 만족시킨다.

4. 공변량 효과 제어시 치료법의 효과 검정 - 모형 제곱합

1) 제1종 제곱합 Type I SS

SS(trt,X) = SS(trt) + SS(X | trt)

처리가 기여한 부분 + 처리의 기여 후 순수 공변량 x이 기여한 부분

2) 제3종 제곱합 Type III SS

SS(trt | X) + SS(X | trt)

공변량x가 기여한 상태에서 처리가 기여한 부분 + 처리의 기여 후 순수 공변량 x이 기여한 부분

x given trt, 초기혈당수치 x가 고려된 후 치료법간 차이trt의 차이를 확인한다는 분석의 목적. 즉 x 기여 외 순수 trt 기여를 아는 것이 목표이기 때문에, 우리가 관심가지는 분야 역시 제3종 제곱함 SS(trt | X) 부분

제1종 제곱합

> ancova(y~trt+x,data=glucose)

Analysis of Variance Table

Response: y

Df Sum Sq Mean Sq F value Pr(>F)

trt 4 198.407 49.602 10.252 0.0004301 ***

x 1 92.528 92.528 19.125 0.0006369 ***

Residuals 14 67.734 4.838

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’

제3종 제곱합

> summary(aov(y~x+factor(trt),data=glucose))

Df Sum Sq Mean Sq F value Pr(>F)

x 1 256.75 256.75 53.067 4e-06 ***

factor(trt) 4 34.19 8.55 1.767 0.192

Residuals 14 67.73 4.84

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1

제1종 제곱합은

- F-값10.252

- p-value: 0.0004301 < 0.05

- 의사결정: ss(trt) 제1종 제곱합은 유의하게 나와 치료법이 5% 유의수준 하에서 유의하다.

제3종 제곱합

- F-값1.767

- p-value: 0.192 > 0.05

- 의사결정: ss(trt | x) x given trt, 공변량x이 기여한 상태에서 처리trt가 기여한 순수한 부분을 확인하는 제3종 제곱합은 치료법trt이 5% 유의수준 하에서 유의하지 않다. 공분산분석은 공변량x의 효과를 제어했을 때 치료법trt에 따라 혈압의 보정평균이 차이가 나는지가 관심사이기 때문에 치료법의 유의성 결과는 제3종 제곱합에 나타난 결과를 보아야 한다.

초기수치

초기수치에 대해서는 제1종 제곱합과 제3종 제곱합이 같게 나오는데 이것은 제1종 제곱합에서는 SS(X | trt)이고 고유기여분을 나타내는 제3종 제곱합에서도 SS(X | trt)이기 때문이다. 초기 수치에 대한 p-value는 0.0006으로 유의수준 5%하에서 매우 유의함을 알 수 있다.

귀무가설 H02 : α1 = α2 = … = αI

p-value: 0.0006

의사결정: 초기수치의 효과가 0이라는 귀무가설을 기각하게 되어 앞의 공분산분석을 하기 위해 만족해야 하는 첫 번째 가정이 충족되는 것을 알 수 있다.

4. 각 요인의 수준별 추정치 분석

> model2 = lm(y~factor(trt)+x,data=glucose)

> summary(model2)

Call:

lm(formula = y ~ factor(trt) + x, data = glucose)

Residuals:

Min 1Q Median 3Q Max

-3.1360 -1.0024 -0.2827 0.7257 6.0806

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 13.9437 4.8219 2.892 0.011834 *

factor(trt)B -2.7685 1.5554 -1.780 0.096793 .

factor(trt)C -1.6660 1.6186 -1.029 0.320776

factor(trt)D -1.6284 1.5618 -1.043 0.314787

factor(trt)E -4.5903 1.9115 -2.401 0.030788 *

x 0.7534 0.1723 4.373 0.000637 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.2 on 14 degrees of freedom

Multiple R-squared: 0.8112, Adjusted R-squared: 0.7437

F-statistic: 12.03 on 5 and 14 DF, p-value: 0.0001164

위의 각 추정 계수를 바탕으로 공분산 모형식을 쓰면 아래 식과 같다.

ŷ_1j = β^₀ + α^₁ + β^x_1j = 13.9437 + 0 + 0.7534x_1j

ŷ_2j = β^₀ + α^₂ + β^x_2j = 13.9437 -2.7685 + 0.7534x_2j

ŷ_3j = β^₀ + α^₃ + β^x_3j = 13.9437 -1.6660 + 0.7534x_3j

ŷ_4j = β^₀ + α^₄ + β^x_4j = 13.9437 -1.6284 + 0.7534x_4j

ŷ_5j = β^₀ + α^₅ + β^x_5j = 13.9437 -4.5903 + 0.7534x_5j

각 처리의 회귀식을 살펴보면 공변량 초기혈당량의 회귀계수 0.7534는 모두 처리에 대해 공통이고 반응변수y의 절편에서만 값이 차이가 난다는 것을 알 수 있다. 첫 번째 치료법 A의 처리효과를 0으로놓았기 때문에 Inetercept 부분의 회귀계수 13.9437은 첫번째 치료법 A의 상수항임을 알 수 있고, 치료법B부터 치료법 E에 대한 추정치는 각각 첫 번째

치료법 A의 추정치와의 차이가 난다.

치료법A(trt A)와 치료법 E(trt E)의 차이에 대한 p-value가 0.0308로 유의하게 나와 치료법 A가 치료법E와 유의하게 차이가 난다는 것을 알 수 있다.

혈당량의 초기 수치(x)에 대한 모수 추정치는 0.753이고 t-값과 p-값이 각각 4.373과 0.000637으로유의수준 5%하에서 혈당량의 초기 수치(x)가 0이라는 귀무가설을 기각할 만한 증거가 충분하다.

즉 공변량 효과가 있다. 이는 공분산결과 분석을 해도 된다.

5. LSMEAN(adjusted mean) 분석

> lsmeans(model2, ~ trt)

trt lsmean SE df lower.CL upper.CL

A 32.97565 1.151991 14 30.50487 35.44642

B 30.20716 1.148211 14 27.74449 32.66982

C 31.30960 1.104799 14 28.94004 33.67916

D 31.34724 1.117954 14 28.94946 33.74501

E 28.38536 1.341631 14 25.50785 31.26287

Confidence level used: 0.95

Warning message:

In model.frame.default(trms, grid, na.action = na.pass, xlev = xlev) :

variable 'trt' is not a factor

보정된(adjust) 평균은 각 처리마다 추정된 회귀식에서 공변량값에 각 처리 평균 대신 공변량의 전체평균을

사용하였을 때 기대되는 반응변수의 평균이다. 즉, 공변량 효과를 보정한 상태에서의 반응변수의 평균으로, 모든 처리에서 공변량 평균이 같다고 했을 때의 평균이다. 공분산분석에서는 공변량 효과를

보정한 보정 평균 간에 차이가 있는지가 가장 큰 관심사이다. 앞에서 구한 각 처리 회귀식의 공변량에

공변량의 전체 평균값을 넣어서 처리별 보정된 평균을 다음 식과 같이 계산할 수 있다.

y bar_ad1 = β^₀ + α^₁ + β^xbar = 13.9437 + 0 + 0.7534 X 25.26 = 32.975

y bar_ad2 = β^₀ + α^₂ + β^xbar = 13.9437 -2.7685 + 0.7534 X 25.26 =30.207

y bar_ad3 = β^₀ + α^₃ + β^xbar = 13.9437 -1.6660 + 0.7534 X 25.26 =31.309

y bar_ad4 = β^₀ + α^₄ + β^xbar = 13.9437 -1.6284 + 0.7534 X 25.26 =31.347

y bar_ad5 = β^₀ + α^₅ + β^xbar = 13.9437 -4.5903 + 0.7534 X 25.26 =28.385

각 처리마다 계산된 보정된 평균값의 차이는 공변량의 값이 전체 평균으로 같기 때문에 평균값의 차이는 절편의 차이가 됨을 알 수 있다. 각 처리마다 추정된 회귀계수 값들은 첫 번째 처리(trt A)와 추정치 차이인 동시에 첫 번째 처리와의 보정된 평균 차이이기도 하다.

6. Tukey(HSD) 검정 (처리 간 다중 비교)

> model2.lsm = lsmeans(model2,pairwise ~ trt,glhargs=list())

> print(model2.lsm, omit = 2)

$lsmeans

trt lsmean SE df lower.CL upper.CL

A 32.97565 1.151991 14 30.50487 35.44642

B 30.20716 1.148211 14 27.74449 32.66982

C 31.30960 1.104799 14 28.94004 33.67916

D 31.34724 1.117954 14 28.94946 33.74501

E 28.38536 1.341631 14 25.50785 31.26287

Confidence level used: 0.95

$contrasts

contrast estimate SE df t.ratio p.value

A - B 2.76849175 1.555390 14 1.780 0.4216

A - C 1.66604727 1.618557 14 1.029 0.8378

A - D 1.62840923 1.561818 14 1.043 0.8316

A - E 4.59029035 1.911531 14 2.401 0.1718

B - C -1.10244448 1.615029 14 -0.683 0.9570

B - D -1.14008252 1.560695 14 -0.730 0.9457

B - E 1.82179860 1.904048 14 0.957 0.8696

C - D -0.03763804 1.585115 14 -0.024 1.0000

C - E 2.92424307 1.690871 14 1.729 0.4485

D - E 2.96188112 1.832554 14 1.616 0.5115

P value adjustment: tukey method for comparing a family of 5 estimates

> plot(model2.lsm[[2]])

앞서 본 모델에서는 A와 E 치료법 사이에 유의한 차이가 있었지만, LSD 검정(Tukey(HSD)) 검정에서는어느 치료법도 혈당 수치에 있어 유의한 차이가 없다. 왜일까? Tukey검정방법은 상대적으로 보수적이기 때문에 정말 큰 차이가 날 경우에만 유의한 차이를 보인다.

Dunnett vs Tukey

모든 평균이 같다는 귀무가설이 기각되었다는 말은 그룹 중 최소한 하나는 0이 아니다라는 말이다. 어느 쌍의 차이로 귀무가설이 기각되었는지 조사하기 위해 다중비교를 한다. 분산분석에서 많이 쓰이는 다중비교 방법은 Dunnett와 Tukey이다. Tukey는 가능한 모든 조합의 쌍을, Dunnett는 하나의 대조군(reference)을 나머지 비교군(treatment)들과 비교한다.

6-1) Tukey

> library(multcomp)

> model3 = lm(y~trt+x,data=glucose)

> tukey = glht(model3,linfct=mcp(trt='Tukey'))

> summary(tukey)

Simultaneous Tests for General Linear Hypotheses

Multiple Comparisons of Means: Tukey Contrasts

Fit: lm(formula = y ~ trt + x, data = glucose)

Linear Hypotheses:

Estimate Std. Error t value Pr(>|t|)

B - A == 0 -2.76849 1.55539 -1.780 0.419

C - A == 0 -1.66605 1.61856 -1.029 0.836

D - A == 0 -1.62841 1.56182 -1.043 0.830

E - A == 0 -4.59029 1.91153 -2.401 0.170

C - B == 0 1.10244 1.61503 0.683 0.956

D - B == 0 1.14008 1.56069 0.730 0.945

E - B == 0 -1.82180 1.90405 -0.957 0.868

D - C == 0 0.03764 1.58512 0.024 1.000

E - C == 0 -2.92424 1.69087 -1.729 0.446

E - D == 0 -2.96188 1.83255 -1.616 0.509

(Adjusted p values reported -- single-step method)

결과해석: 모든 치료방법 간 차이의 p-value가 0.05보다 크기 때문에 유의하지 않다.

> plot(tukey)

결과 해석: 치료 방법의 차이 신뢰구간이 0을 포함하고 있으므로 서로 유의하지 않다. 즉, 어느 치료법도 혈당수치에 있어 유의한 차이가 없다.

6-2) Dunnett

> dunnett=glht(model3,linfct=mcp(trt='Dunnett'))

> summary(dunnett)

Simultaneous Tests for General Linear Hypotheses

Multiple Comparisons of Means: Dunnett Contrasts

Fit: lm(formula = y ~ trt + x, data = glucose)

Linear Hypotheses:

Estimate Std. Error t value Pr(>|t|)

B - A == 0 -2.768 1.555 -1.780 0.2700

C - A == 0 -1.666 1.619 -1.029 0.7006

D - A == 0 -1.628 1.562 -1.043 0.6919

E - A == 0 -4.590 1.912 -2.401 0.0953 .

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Adjusted p values reported -- single-step method)

결과해석: 모든 치료방법 간 차이의 p-value가 0.05보다 크기 때문에 유의하지 않다.

> plot(dunnett)

결과 해석: 치료 방법의 차이 신뢰구간이 0을 포함하고 있으므로 서로 유의하지 않다. 즉, 어느 치료법도 혈당수치에 있어 유의한 차이가 없다.

7. 잔차 분석

> par(mfrow=c(2,2))

> plot(모형2)

특이값 2번이 존재하지만, 정규분포를 따르고 등분산 가정은 큰 문제는 없다.

출처: 보건정보데이터 분석(이태림, 이재원, 김주한, 장대흥 공저), R을 이용한 누구나 하는 통계분석(안재형 저)

'KNOU > 2 보건 정보 데이터 분석' 카테고리의 다른 글

제6.2장 비모수적 방법 - 1. 생명표 방법 (0)	2017.01.26
제5.1장 공분산 분석 - 2 공변량이 둘 이상인 경우 (2)	2017.01.13
제4장 범주형 자료의 분석 - 4.3 로짓분석 (0)	2017.01.04
제4장 범주형 자료의 분석 - 4.2.4 대응자료 및 사례 - 대조군 검정 (0)	2016.12.29
제2장 보건정보 데이터의 기초분석 (1)	2016.12.27

Posted by 마르띤

,

제4장 범주형 자료의 분석 - 4.3 로짓분석

KNOU/2 보건 정보 데이터 분석 2017. 1. 4. 10:03

로짓분석이란?

생존여부나 교통사고 발성 여부와 같이 반응변수(Y)는 범주형(명목형(남자 1, 여자2), 순서형(초졸1, 중졸2, 고졸3, 대졸4))이고 이에 대한 설명변수(X)는 범주형과 이산형(방의 개수: 2개)dl 혼합된 경우 관련성 여부를 규명하기 위해서는 모형으로 로짓logit 모형을 적용할 수 있다.

오즈: 기본이 되는 변수로 오즈odds를 들 수 있는데 이것은 두 확률의 비를 의미하는 것이다.

odds=p/(1-p)

로짓: 흡연 산모가 미숙아를 출산할 확률이 비흡연 산모를 1로 했을 때 2.5배라고 발표하는 것이 그 예이다. 로짓은 오즈에 자연로그를 취한 형태를 의미한다.

logit=ln(p/1-p)

로짓 모형: 범주형 자료 분석에서 실험자들의 설명변수(X)에 대한 통제가 가능한 경우 반응변수(Y)에 대한 로짓모형을 적용할 수 있다.

logit=ln(p/1-p) = β₀ + β₁x

예) B.J.T Morgan은 폴란드 바르샤바의 3918명 여성들을 대상으로 초사한 초경자료를 가지고 범주형 자료의 회귀분석(을 소개하였다). 연령과 월경 사이에 어떠한 관계가 있는지 알아보자.

> 초경연령자료 = read.table('c:/Rwork/바르샤바초경연령자료.csv',sep=',',header=T)

> head(초경연령자료)

평균연령 초경경험자 군의총수

1 9.21 0 376

2 10.21 0 200

3 10.58 0 93

4 10.83 2 120

5 11.08 2 90

6 11.33 5 88

> attach(초경연령자료)

> 확률 = 초경경험자/군의총수

> plot(평균연령,확률)

#로짓분석

> logit <- glm(확률~평균연령,data=초경연령자료,family='binomial')

> logit

Call: glm(formula = 확률 ~ 평균연령, family = "binomial", data = 초경연령자료)

Coefficients:

(Intercept) 평균연령

-20.907 1.608

Degrees of Freedom: 23 Total (i.e. Null); 22 Residual

Null Deviance: 19.06

Residual Deviance: 0.2214 AIC: 11.38

> summary(logit)

Call:

glm(formula = 확률 ~ 평균연령, family = "binomial", data = 초경연령자료)

Deviance Residuals:

Min 1Q Median 3Q Max

-0.20043 -0.08458 -0.05277 0.06104 0.13296

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) -20.9067 8.1314 -2.571 0.0101 *

평균연령 1.6077 0.6244 2.575 0.0100 *

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 19.06046 on 23 degrees of freedom

Residual deviance: 0.22137 on 22 degrees of freedom

AIC: 11.383

Number of Fisher Scoring iterations: 6

결과: 로짓모형을 추정하면 아래와 같다. 즉, X가 1단위 증가할 때 변화하는 로그 오즈(odds)의 비율은 1.6077이다.

logit(p) = -20.9067 + 1.6077 X

> exp(coef(logit))

(Intercept) 평균연령

8.323842e-10 4.991105e+00

결과해석: 나이가 한 살 증가할 때 초경 경험자의 오즈 odds는 4.991 (exp(1.6077))배 더 많다고 할 수 있다.

그룹의 50%가 초경을 하는 연령을 구하기 위해 p=0.5일 때의 연령 X를 구하면

logit(0.5) =	log(	0.5	) =	log1 = 0
		1-0.5

이고 이것이 바로 유효 중앙값 ED₅₀(Effective Dose of 50%)이 되어 50%가 초경을 경험한 소녀들의 나이가 된다. 이를 계산하면 아래 수식을 통해 x=13, 즉 약 13세임을 알 수 있다.

0 = -20.9067 + 1.6077 X

이식은 양의 용량이 늘어날수록 반응률이 높아지는 반응곡선, 즉 용량-반응곡선(dose response curve)에도 응용된다. 예를 들면 100명의 고열 환자에게 해열제를 투여했을 때 환자 50%의 열이 떨어지는 효과를 보여주는 약의 용량인 ED₅₀을 구하는데 적용할 수 있다.

예) M.J.R Healy는 비타민 E의 용량에 따른 임신한 쥐의 숫자를 아래와 같이 발표하였다. 투입된 비타민 E의 용량과 임신에 대한 관계를 알아보자.

용량(mg)	수	임신
3.75	5	0
5	10	2
6.25	10	4
7.5	10	8
10	11	10
15	11	11

> 용량 = c(3.75,5,6.25,7.5,10,15)

> 수= c(5,10,10,10,11,11)

> 임신 = c(0,2,4,8,10,11)

> 쥐임신<-cbind(용량,수,임신)

> 쥐임신

용량 수 임신

[1,] 3.75 5 0

[2,] 5.00 10 2

[3,] 6.25 10 4

[4,] 7.50 10 8

[5,] 10.00 11 10

[6,] 15.00 11 11

> 확률2 = 쥐임신[,3] / 쥐임신[,2]

> 확률2

[1] 0.0000000 0.2000000 0.4000000 0.8000000 0.9090909 1.0000000

#로짓분석

> logit2 <- glm(확률2~log10(쥐임신[,1]),family='binomial')

> logit2

Call: glm(formula = 확률2 ~ log10(쥐임신[, 1]), family = "binomial")

Coefficients:

(Intercept) log10(쥐임신[, 1])

-12.42 15.35

Degrees of Freedom: 5 Total (i.e. Null); 4 Residual

Null Deviance: 4.297

Residual Deviance: 0.136 AIC: 6.315

> summary(logit2)

Call:

glm(formula = 확률2 ~ log10(쥐임신[, 1]), family = "binomial")

Deviance Residuals:

1 2 3 4 5 6

-0.23099 0.11888 -0.09852 0.15618 -0.16518 0.08464

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) -12.42 10.39 -1.195 0.232

log10(쥐임신[, 1]) 15.35 12.76 1.203 0.229

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 4.29706 on 5 degrees of freedom

Residual deviance: 0.13603 on 4 degrees of freedom

AIC: 6.3152

Number of Fisher Scoring iterations: 6

결과: glm(formula = 확률2 ~ log10(쥐임신[, 1]), family = "binomial")를 보면 모형을 적합하는데 용량(X) 대신 log ₁₀(X)를 사용하였다. 위의 결과를 통해 다음 추정식을 회귀할 수 있다.

ln(	p_x	) =	-12.42 + 15.35 log₁₀x
	1 - p_x

따라서 비타민 E 용량이 10배 증가함에 따라 변화하는 임신 로그 오즈의 비율은15.35임을 알 수 있다.

> exp(coef(logit2))

(Intercept) log10(쥐임신[, 1])

4.033060e-06 4.631322e+06

비타민 용량 E가 10배 증가할 때 임신의 오즈는 4.631(=exp(15.35))배 더 많다고 할 수 있다.

전체 그룹 중 50%가 임신하는 비타민 용량 E는 아래와 같이 구할 수 있다.

logit(0.5) =	log(	0.5	) =	log1 = 0
		1-0.5

수식을 이용하면 ED₅₀(Effective Dose of 50%)은 0 = -12.42 + 15.35 log₁₀x이므로 ED₅₀(Effective Dose of 50%)의 추정량은 6.44mg이 된다.

> 10^(12.42/15.35)

[1] 6.443481

출처: 보건정보데이터분석(이태림, 이재원, 김주한, 장대흥 공저)

'KNOU > 2 보건 정보 데이터 분석' 카테고리의 다른 글

제5.1장 공분산 분석 - 2 공변량이 둘 이상인 경우 (2)	2017.01.13
제5.1장 공분산 분석 - 1. 공변량이 하나인 경우 (0)	2017.01.06
제4장 범주형 자료의 분석 - 4.2.4 대응자료 및 사례 - 대조군 검정 (0)	2016.12.29
제2장 보건정보 데이터의 기초분석 (1)	2016.12.27
제4장 범주형 자료의 분석 - 4.2.2 독립성 검정 (카이제곱 검정) (0)	2016.11.08

Posted by 마르띤

,

제4장 범주형 자료의 분석 - 4.2.4 대응자료 및 사례 - 대조군 검정

KNOU/2 보건 정보 데이터 분석 2016. 12. 29. 10:09

4.2.4 대응자료 및 사례 – 대조군 검정

유권자	이전	이후
1	1	0
2	0	0
3	1	1
. . .	. . .	. . .
100	0	1

선거유세의 효과를 파악하는 방법으로 유권자 100명을 확률표본으로 추출하여 유세 이전의 지지(1=여당, 0 = 야당)와 유세 이후의 지지(1=여당, 0=야당) 데이터를 만들었다. 유세 이전과 이후 유권자의 지지변화가 있었는지 알아보자

데이터를 table로 만들면 아래와 같다.

구분		유세이후
구분		X2=1	X2=0	합
유세이전	X1=1	63	4	67
	X1=0	21	12	33
	합	84	16	100

> 선거유세효과<-matrix(c(63,4,21,12),2,2,byrow=T,dimnames=list(유세이전=c('유세전 여당','유세전 야당'),유세이후=c('유세후 여당','유세후 야당')))

> 선거유세효과

유세이후

유세이전 유세후 여당 유세후 야당

유세전 여당 63 4

유세전 야당 21 12

> mcnemar.test(선거유세효과,correct=F) #McNemar 검정, {(21-4)/(21+4)}^2=11.56, 11.56보다 같거나 더 극단적인 값이 나올 확률 0.0006739

McNemar's Chi-squared test

data: 선거유세효과

McNemar's chi-squared = 11.56, df = 1, p-value = 0.0006739

> mcnemar.test(선거유세효과) #연속성 수정

McNemar's Chi-squared test with continuity correction

data: 선거유세효과

McNemar's chi-squared = 10.24, df = 1, p-value = 0.001374

> library(exact2x2)

> exact2x2(선거유세효과,paired=T)

Exact McNemar test (with central confidence intervals)

data: 선거유세효과

b = 4, c = 21, p-value = 0.0009105

alternative hypothesis: true odds ratio is not equal to 1

95 percent confidence interval:

0.04753664 0.56452522

sample estimates:

odds ratio

0.1904762

귀무가설: H0 유세 전과 후의 지지율이 같다

대립가설: H1 유세 전과 후의 지지율이 다르다

검정 결과: McNemar 검정 결과 p-값 0.0009105

결론: 귀무가설을 기각, 유세 이전과 이후에 유권자의 지지에 변화가 일어났다.

McNemar 검정은 변화의 유의성 검정 이외에 역학 연구에서 흔히 이루어지는 사례-대조군 연구에도 사용된다. 역학연구에서는 후향연구의 한 형태로 사례-대조군 연구를 실시하고 경우에 따라서 사례에 대한 대조를 1:1 대응으로 찾는 경우가 있다. 다음의 호지킨병과 편도적출(tonsillectomy)자료는 1:1 대응의 사례-대조군 연구 자료이고 McNemar 검정의 좋은 예이다.

[예] 1972년에 편도적출과 호지킨병의 관계를 규명하는 연구보고가 있었다. 미국 국립 암 연구소에서 치료를 받은 174명의 호지킨병 환자들을 사례군으로 하고 환자들의 형제자매 472명을 대조군으로 구성하였다. 그리고 이 자료를 기초로 한 추후의 연구보고에서는 사례와 대조를 1:1 대응으로 하기 위해서 사례 한 명에 대응되는 대조는 나이 차이가 5년 이내이고 같은 성별을 가진 형제자매 중 사례와 나이가 가장 가까운 사람으로 정하였다. 이렇게 하여 85쌍의 사례 – 대조군 자료가 관찰되었다. 호지킨병과 편도적출이 독립적인가를 검정하는 문제를 생각해보자.

> 호지킨병 = matrix(c(26,15,7,37),nrow=2,byrow=T)

> 호지킨병

[,1] [,2]

[1,] 26 15

[2,] 7 37

> dimnames(호지킨병) = list(사례군=c('편도추출 유','편도추출 무'), 대조군=c('편도추출 유','편도추출 무'))

> 호지킨병

대조군

사례군 편도추출 유 편도추출 무

편도추출 유 26 15

편도추출 무 7 37

> 분할표_호지킨병 = addmargins(호지킨병)

> 분할표_호지킨병

대조군

사례군 편도추출 유 편도추출 무 Sum

편도추출 유 26 15 41

편도추출 무 7 37 44

Sum 33 52 85

> mcnemar.test(호지킨병,correct=F) #McNemar 검정

McNemar's Chi-squared test

data: 호지킨병

McNemar's chi-squared = 2.9091, df = 1, p-value = 0.08808

> mcnemar.test(호지킨병) #McNemar 검정(연속성 수정)

McNemar's Chi-squared test with continuity correction

data: 호지킨병

McNemar's chi-squared = 2.2273, df = 1, p-value = 0.1356

> library(exact2x2)

> exact2x2(호지킨병,paired=T)

Exact McNemar test (with central confidence intervals)

data: 호지킨병

b = 15, c = 7, p-value = 0.1338

alternative hypothesis: true odds ratio is not equal to 1

95 percent confidence interval:

0.8224084 6.2125863

sample estimates:

odds ratio

2.142857

귀무가설: H0 호지킨병과 편도적출이 독립적이다

대립가설: H1 호지킨병과 편도적출이 독립적이지 않다

검정결과: McNemar 검정결과 p-value 0.1338

결론: a=0.05에서 H0를 기각시키기에 충분한 증거를 제시하지 않는다고 결론

출처: 보건정보데이터 분석(이태림, 이재원, 김주한, 장대흥 공저)

'KNOU > 2 보건 정보 데이터 분석' 카테고리의 다른 글

제5.1장 공분산 분석 - 1. 공변량이 하나인 경우 (0)	2017.01.06
제4장 범주형 자료의 분석 - 4.3 로짓분석 (0)	2017.01.04
제2장 보건정보 데이터의 기초분석 (1)	2016.12.27
제4장 범주형 자료의 분석 - 4.2.2 독립성 검정 (카이제곱 검정) (0)	2016.11.08
제4장 범주형 자료의 분석 - 4.2 범주형 자료의 검정(카이제곱 검정) (0)	2016.11.04

Posted by 마르띤

,

제2장 보건정보 데이터의 기초분석

KNOU/2 보건 정보 데이터 분석 2016. 12. 27. 10:11

p.46 제2장 보건 정보 데이터의 기초 분석

2.3 자료의 기술 및 요약

> setwd('c:/Rwork/')

> 담즙과포화비율자료 = read.table('담즙과포화비율.txt',header=T)

> attach(담즙과포화비율자료)

> head(담즙과포화비율자료,2)

성별 담즙의과포화비율

1 남자 40

2 남자 88

> plot(담즙의과포화비율,type='p',xlab='자료',ylab='담즙과포화비율',main='담즙과포화비율')

> par(new=T)

> plot(담즙의과포화비율,type='h',xlab='자료',ylab='담즙과포화비율',main='담즙과포화비율')

> length(담즙의과포화비율)

[1] 60

> length(담즙의과포화비율) #길이

[1] 60

> sort(담즙의과포화비율,decreasing=T) #내림차순

[1] 146 142 137 128 127 123 123 120 118 116 112 111 110 110 107 106 106 98 91 90 89 88 88

[24] 88 87 87 86 86 86 84 84 82 80 80 80 79 78 77 76 76 75 74 73 73 69 67

[47] 66 66 65 65 58 58 57 56 55 52 52 47 40 35

> sum(담즙의과포화비율) #합

[1] 5185

> cumsum(담즙의과포화비율) #누적합

[1] 40 128 238 295 381 518 596 707 795 875 961 1041 1088 1194 1259 1333 1399 1478

[19] 1536 1659 1746 1834 1924 1980 2053 2165 2275 2393 2445 2551 2618 2683 2735 2819 2905 2940

[37] 3056 3132 3187 3260 3349 3476 3563 3705 3782 3858 3916 4007 4114 4212 4340 4424 4570 4645

[55] 4765 4845 4927 5050 5116 5185

> mean(담즙의과포화비율);median(담즙의과포화비율) #평균과 중앙값

[1] 86.41667

[1] 84

> mean(담즙의과포화비율,trim=1/10) #10% 절삭

[1] 85.4375

> var(담즙의과포화비율);sd(담즙의과포화비율) #분산과 표준편차

[1] 657.1624

[1] 25.63518

> fivenum(담즙의과포화비율) #다섯숫자요약

[1] 35.0 68.0 84.0 106.5 146.0

> quantile(담즙의과포화비율)

0% 25% 50% 75% 100%

35.00 68.50 84.00 106.25 146.00

> IQR(담즙의과포화비율) #3사분위수-1사분위수

[1] 37.75

> quantile(담즙의과포화비율)[4]-quantile(담즙의과포화비율)[2]

75%

37.75

> mad(담즙의과포화비율) #Median Absolut Deviation 각 데이터에서 중앙값을 뺀 후 절대값을 취한 값들의 중앙값

[1] 26.6868

> max(담즙의과포화비율);min(담즙의과포화비율)

[1] 146

[1] 35

> range(담즙의과포화비율)

[1] 35 146

> R=max(담즙의과포화비율)-min(담즙의과포화비율)

> R

[1] 111

2. 4 표와 그래프를 이용한 자료의 요약

> head(담즙과포화비율자료,2)

성별 담즙의과포화비율

1 남자 40

2 남자 88

> 계급 = cut(담즙의과포화비율, breaks=c(20,40,60,80,100,120,140,160))

> head(계급)

[1] (20,40] (80,100] (100,120] (40,60] (80,100] (120,140]

Levels: (20,40] (40,60] (60,80] (80,100] (100,120] (120,140] (140,160]

> table(계급)

계급

(20,40] (40,60] (60,80] (80,100] (100,120] (120,140] (140,160]

2 8 18 15 10 5 2

> par(mfrow=c(1,1))

> hist(담즙의과포화비율,breaks=c(20,40,60,80,100,120,140,160),main='히스토그램')

> rug(담즙의과포화비율)

> stem(담즙의과포화비율) #나무 줄기 그림

The decimal point is 1 digit(s) to the right of the |

2 | 5

4 | 072256788

6 | 556679334566789

8 | 000244666778889018

10 | 667001268

12 | 033787

14 | 26

> stem(담즙의과포화비율,scale=2) #줄기의 마디 2배로 늘리기

The decimal point is 1 digit(s) to the right of the |

3 | 5

4 | 07

5 | 2256788

6 | 556679

7 | 334566789

8 | 000244666778889

9 | 018

10 | 667

11 | 001268

12 | 03378

13 | 7

14 | 26

> library(vioplot)

> vioplot(담즙의과포화비율,names='담즙의과포화비율',col='yellow')

> n=length(담즙의과포화비율)

> plot(sort(담즙의과포화비율),(1:n)/n,type='s',ylim=c(0,1),main='Ogive of bile supersaturation',ylab='ECDF',xlab='담즙과포화비율') #ogive 오자이브 그래프

> rug(담즙의과포화비율)

출처: 보건정보데이터 분석(이태림, 이재원, 김주한, 장대흥 공저)

'KNOU > 2 보건 정보 데이터 분석' 카테고리의 다른 글

제4장 범주형 자료의 분석 - 4.3 로짓분석 (0)	2017.01.04
제4장 범주형 자료의 분석 - 4.2.4 대응자료 및 사례 - 대조군 검정 (0)	2016.12.29
제4장 범주형 자료의 분석 - 4.2.2 독립성 검정 (카이제곱 검정) (0)	2016.11.08
제4장 범주형 자료의 분석 - 4.2 범주형 자료의 검정(카이제곱 검정) (0)	2016.11.04
제4장 범주형 자료의 분석 - 4.1 범주형 자료와 분할표 (0)	2016.11.04

Posted by 마르띤

,

데이터마이너를 꿈꾸며

'KNOU/2 보건 정보 데이터 분석'에 해당되는 글 15건

제6.5장 준모수적 방법

'KNOU > 2 보건 정보 데이터 분석' 카테고리의 다른 글

제6.4장 모수적 방법

'KNOU > 2 보건 정보 데이터 분석' 카테고리의 다른 글

제6.3장 비모수적 방법을 이용한 생존함수의 비교

'KNOU > 2 보건 정보 데이터 분석' 카테고리의 다른 글

제6.2장 비모수적 방법 - 2. 누적한계추정법

'KNOU > 2 보건 정보 데이터 분석' 카테고리의 다른 글

제6.2장 비모수적 방법 - 1. 생명표 방법

'KNOU > 2 보건 정보 데이터 분석' 카테고리의 다른 글

제5.1장 공분산 분석 - 2 공변량이 둘 이상인 경우

'KNOU > 2 보건 정보 데이터 분석' 카테고리의 다른 글

제5.1장 공분산 분석 - 1. 공변량이 하나인 경우

'KNOU > 2 보건 정보 데이터 분석' 카테고리의 다른 글

제4장 범주형 자료의 분석 - 4.3 로짓분석

'KNOU > 2 보건 정보 데이터 분석' 카테고리의 다른 글

제4장 범주형 자료의 분석 - 4.2.4 대응자료 및 사례 - 대조군 검정

'KNOU > 2 보건 정보 데이터 분석' 카테고리의 다른 글

제2장 보건정보 데이터의 기초분석

'KNOU > 2 보건 정보 데이터 분석' 카테고리의 다른 글

링크

카테고리

최근에 올라온 글

최근에 받은 트랙백

글 보관함

티스토리툴바