로짓분석이란?
생존여부나 교통사고 발성 여부와 같이 반응변수(Y)는 범주형(명목형(남자 1, 여자2), 순서형(초졸1, 중졸2, 고졸3, 대졸4))이고 이에 대한 설명변수(X)는 범주형과 이산형(방의 개수: 2개)dl 혼합된 경우 관련성 여부를 규명하기 위해서는 모형으로 로짓logit 모형을 적용할 수 있다.
오즈: 기본이 되는 변수로 오즈odds를 들 수 있는데 이것은 두 확률의 비를 의미하는 것이다.
odds=p/(1-p)
로짓: 흡연 산모가 미숙아를 출산할 확률이 비흡연 산모를 1로 했을 때 2.5배라고 발표하는 것이 그 예이다. 로짓은 오즈에 자연로그를 취한 형태를 의미한다.
logit=ln(p/1-p)
로짓 모형: 범주형 자료 분석에서 실험자들의 설명변수(X)에 대한 통제가 가능한 경우 반응변수(Y)에 대한 로짓모형을 적용할 수 있다.
예) B.J.T Morgan은 폴란드 바르샤바의 3918명 여성들을 대상으로 초사한 초경자료를 가지고 범주형 자료의 회귀분석(을 소개하였다). 연령과 월경 사이에 어떠한 관계가 있는지 알아보자.
> 초경연령자료 = read.table('c:/Rwork/바르샤바초경연령자료.csv',sep=',',header=T)
> head(초경연령자료)
평균연령 초경경험자 군의총수
1 9.21 0 376
2 10.21 0 200
3 10.58 0 93
4 10.83 2 120
5 11.08 2 90
6 11.33 5 88
> attach(초경연령자료)
> 확률 = 초경경험자/군의총수
> plot(평균연령,확률)
#로짓분석
> logit <- glm(확률~평균연령,data=초경연령자료,family='binomial')
> logit
Call: glm(formula = 확률 ~ 평균연령, family = "binomial", data = 초경연령자료)
Coefficients:
(Intercept) 평균연령
-20.907 1.608
Degrees of Freedom: 23 Total (i.e. Null); 22 Residual
Null Deviance: 19.06
Residual Deviance: 0.2214 AIC: 11.38
> summary(logit)
Call:
glm(formula = 확률 ~ 평균연령, family = "binomial", data = 초경연령자료)
Deviance Residuals:
Min 1Q Median 3Q Max
-0.20043 -0.08458 -0.05277 0.06104 0.13296
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -20.9067 8.1314 -2.571 0.0101 *
평균연령 1.6077 0.6244 2.575 0.0100 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 19.06046 on 23 degrees of freedom
Residual deviance: 0.22137 on 22 degrees of freedom
AIC: 11.383
Number of Fisher Scoring iterations: 6
결과: 로짓모형을 추정하면 아래와 같다. 즉, X가 1단위 증가할 때 변화하는 로그 오즈(odds)의 비율은 1.6077이다.
logit(p) = -20.9067 + 1.6077 X
> exp(coef(logit))
(Intercept) 평균연령
8.323842e-10 4.991105e+00
결과해석: 나이가 한 살 증가할 때 초경 경험자의 오즈 odds는 4.991 (exp(1.6077))배 더 많다고 할 수 있다.
그룹의 50%가 초경을 하는 연령을 구하기 위해 p=0.5일 때의 연령 X를 구하면
logit(0.5) = |
log( |
0.5 |
) = |
log1 = 0 |
1-0.5 |
이고 이것이 바로 유효 중앙값 ED50(Effective Dose of 50%)이 되어 50%가 초경을 경험한 소녀들의 나이가 된다. 이를 계산하면 아래 수식을 통해 x=13, 즉 약 13세임을 알 수 있다.
0 = -20.9067 + 1.6077 X
이식은 양의 용량이 늘어날수록 반응률이 높아지는 반응곡선, 즉 용량-반응곡선(dose response curve)에도 응용된다. 예를 들면 100명의 고열 환자에게 해열제를 투여했을 때 환자 50%의 열이 떨어지는 효과를 보여주는 약의 용량인 ED50을 구하는데 적용할 수 있다.
예) M.J.R Healy는 비타민 E의 용량에 따른 임신한 쥐의 숫자를 아래와 같이 발표하였다. 투입된 비타민 E의 용량과 임신에 대한 관계를 알아보자.
용량(mg) |
수 |
임신 |
3.75 |
5 |
0 |
5 |
10 |
2 |
6.25 |
10 |
4 |
7.5 |
10 |
8 |
10 |
11 |
10 |
15 |
11 |
11 |
> 용량 = c(3.75,5,6.25,7.5,10,15)
> 수= c(5,10,10,10,11,11)
> 임신 = c(0,2,4,8,10,11)
> 쥐임신<-cbind(용량,수,임신)
> 쥐임신
용량 수 임신
[1,] 3.75 5 0
[2,] 5.00 10 2
[3,] 6.25 10 4
[4,] 7.50 10 8
[5,] 10.00 11 10
[6,] 15.00 11 11
> 확률2 = 쥐임신[,3] / 쥐임신[,2]
> 확률2
[1] 0.0000000 0.2000000 0.4000000 0.8000000 0.9090909 1.0000000
#로짓분석
> logit2 <- glm(확률2~log10(쥐임신[,1]),family='binomial')
> logit2
Call: glm(formula = 확률2 ~ log10(쥐임신[, 1]), family = "binomial")
Coefficients:
(Intercept) log10(쥐임신[, 1])
-12.42 15.35
Degrees of Freedom: 5 Total (i.e. Null); 4 Residual
Null Deviance: 4.297
Residual Deviance: 0.136 AIC: 6.315
> summary(logit2)
Call:
glm(formula = 확률2 ~ log10(쥐임신[, 1]), family = "binomial")
Deviance Residuals:
1 2 3 4 5 6
-0.23099 0.11888 -0.09852 0.15618 -0.16518 0.08464
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -12.42 10.39 -1.195 0.232
log10(쥐임신[, 1]) 15.35 12.76 1.203 0.229
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 4.29706 on 5 degrees of freedom
Residual deviance: 0.13603 on 4 degrees of freedom
AIC: 6.3152
Number of Fisher Scoring iterations: 6
결과: glm(formula = 확률2 ~ log10(쥐임신[, 1]), family = "binomial")를 보면 모형을 적합하는데 용량(X) 대신 log 10(X)를 사용하였다. 위의 결과를 통해 다음 추정식을 회귀할 수 있다.
ln( |
px |
) = |
-12.42 + 15.35 log10x |
1 - px |
따라서 비타민 E 용량이 10배 증가함에 따라 변화하는 임신 로그 오즈의 비율은15.35임을 알 수 있다.
> exp(coef(logit2))
(Intercept) log10(쥐임신[, 1])
4.033060e-06 4.631322e+06
비타민 용량 E가 10배 증가할 때 임신의 오즈는 4.631(=exp(15.35))배 더 많다고 할 수 있다.
전체 그룹 중 50%가 임신하는 비타민 용량 E는 아래와 같이 구할 수 있다.
logit(0.5) = |
log( |
0.5 |
) = |
log1 = 0 |
1-0.5 |
수식을 이용하면 ED50(Effective Dose of 50%)은 0 = -12.42 + 15.35 log10x이므로 ED50(Effective Dose of 50%)의 추정량은 6.44mg이 된다.
> 10^(12.42/15.35)
[1] 6.443481
출처: 보건정보데이터분석(이태림, 이재원, 김주한, 장대흥 공저)
'KNOU > 2 보건 정보 데이터 분석' 카테고리의 다른 글
제5.1장 공분산 분석 - 2 공변량이 둘 이상인 경우 (2) | 2017.01.13 |
---|---|
제5.1장 공분산 분석 - 1. 공변량이 하나인 경우 (0) | 2017.01.06 |
제4장 범주형 자료의 분석 - 4.2.4 대응자료 및 사례 - 대조군 검정 (0) | 2016.12.29 |
제2장 보건정보 데이터의 기초분석 (1) | 2016.12.27 |
제4장 범주형 자료의 분석 - 4.2.2 독립성 검정 (카이제곱 검정) (0) | 2016.11.08 |