제3장 연속형 자료의 분석
3.1 두 집단의 평균비교
3.1.1 독립표본의 평균비교 two sample test
예제) 흡연자 집단과 비흡연자 집단 간 폐 파괴지수를 측정하였다. 높은 수치는 폐의 손상이 크다는 것을 뜻한다. 흡연자와 비흡연자의 폐 파괴지수의 평균이 같다고 할 수 있는가? (각 그룹에서의 관측치들은 정규분포를 따르는 모집단으로부터 독립적으로 얻어진 것이며 두 그룹에서의 모분산은 같다고 가정하자. )
귀무가설 H0: 흡연자와 비흡연자의 폐 파괴지수 평균은 같다.
대립가설 H1: 흡연자와 비흡연자의 폐 파괴지수 평균은 다르다. (양측 검정)
#1. 자료 입력
> smoke=c(16.6,13.9,11.3,26.5,17.4,15.3,15.8,12.3,18.6,12,24.1,16.5,21.8,16.3,23.4,18.8)
> nonsmoke=c(18.1,6,10.8,11,7.7,17.9,8.5,13,18.9)
> sapply(list(smoke,nonsmoke),mean)
[1] 17.53750 12.43333
> sapply(list(smoke,nonsmoke),sd)
[1] 4.475247 4.849227
#2. 정규성 검정
> qqnorm(smoke,main='smoke')
> qqline(smoke,col='blue')
> shapiro.test(smoke)
Shapiro-Wilk normality test
data: smoke
W = 0.94511, p-value = 0.4163
결과 해석: shapiro.test의 결과에 따라 p value = 0.4163 > 0.05 이므로 귀무가설 기각 못한다, 즉 정규분포를 따른다
> qqnorm(nonsmoke,main = 'nonsmoke')
> qqline(nonsmoke,col='red')
> shapiro.test(nonsmoke)
Shapiro-Wilk normality test
data: nonsmoke
W = 0.90366, p-value = 0.274
#boxplot과 vioplot
> boxplot(smoke,nonsmoke,col='yellow',names=c('smoke','nonsmoke'))
> library(vioplot)
> vioplot(smoke,nonsmoke,col='yellow',names=c('smoke','nonsmoke'))
결과 해석: 두 집단에 차이가 있음을 알 수 있다.
#3. 두 모분산 비교 (양측검정)
#대립 가설의 형태: alternative = c('two.sided','less','greater')
> var.test(smoke,nonsmoke)
F test to compare two variances
data: smoke and nonsmoke
F = 0.8517, num df = 15, denom df = 8, p-value = 0.7498
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.2076714 2.7243799
sample estimates:
ratio of variances
0.8517046
결과 해석: p value 가 0.7498로 분산이 같다는 귀무가설을 기각할 수 없다. 즉, 등분산 가정
#4.두 모분산 비교 (양측검정) - 등분산 가정
> t.test(smoke,nonsmoke,var.equal = T)
Two Sample t-test
data: smoke and nonsmoke
t = 2.658, df = 23, p-value = 0.01405
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
1.131680 9.076653
sample estimates:
mean of x mean of y
17.53750 12.43333
결과해석:
귀무가설 H0: 흡연자와 비흡연자의 폐 파괴지수 평균은 같다.
대립가설 H1: 흡연자와 비흡연자의 폐 파괴지수 평균은 다르다. (양측 검정)
결정: p value는 p value는 0.01405로 두 모 평균이 같다는 귀무가설을 기각한다. 즉, 두 모평균이 서로 다르다.
#5.두 모분산 비교 (양측검정) - 이분산 가정
> t.test(smoke,nonsmoke)
Welch Two Sample t-test
data: smoke and nonsmoke
t = 2.5964, df = 15.593, p-value = 0.01978
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.9279143 9.2804190
sample estimates:
mean of x mean of y
17.53750 12.43333
결과해석: 등분산 가정과 큰 차이는 없다.
3.1.2 짝지은 표본의 평균비교 paired sample test
예) 환자 15명에게 혈압강하제를 12주 투입 후 혈압을 비교하였다. 새로운 약은 효과적인가?
귀무가설 h0: u1-u2 = 0
대립가설 h1: u1 > u2
1) 데이터 입력
> before=c(90,56,49,64,65,88,62,91,74,93,55,71,54,64,54)
> after=c(72,55,56,57,62,79,55,72,73,74,58,59,58,71,61)
> diff = before - after
2) 정규성 차이: shapiro – wilk test
> qqnorm(diff)
> qqline(diff,col='red')
> shapiro.test(diff)
Shapiro-Wilk normality test
data: diff
W = 0.90982, p-value = 0.1345
결과 해석: shapiro test 결과 p value는 0.1345로써 정규분포를 이루고 있다고 할 수 있다.
3) Paired sample test
> mean(diff) ; sd(diff)
[1] 4.533333
[1] 9.425396
> t.test(before, after, paired = T, alternative = 'greater') #μ 복용 전 > μ 복용 후
Paired t-test
data: before and after
t = 1.8628, df = 14, p-value = 0.0418
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
0.2469617 Inf
sample estimates:
mean of the differences
4.533333
귀무가설 H0: 약 복용전과 복용 후의 혈압 수치는 같다. μ 복용 전 = μ 복용 후
대립가설 H1: 약 복용전 대비 복용 후의 혈압 수치기 다 낮다. μ 복용 전 > μ 복용 후
결론: 단측 검정에 대한 p value가 0.0418로서 유의수준 5%에서 두 그룹의 혈압 차이가 없다는 귀무가설을 기각할 만한 충분한 증거가 있으므로 새로운 약이 혈압을 내린다고 볼 수 있다.
출처: 보건 정보 데이터 분석(이태림 저자)
'KNOU > 2 보건 정보 데이터 분석' 카테고리의 다른 글
제2장 보건정보 데이터의 기초분석 (1) | 2016.12.27 |
---|---|
제4장 범주형 자료의 분석 - 4.2.2 독립성 검정 (카이제곱 검정) (0) | 2016.11.08 |
제4장 범주형 자료의 분석 - 4.2 범주형 자료의 검정(카이제곱 검정) (0) | 2016.11.04 |
제4장 범주형 자료의 분석 - 4.1 범주형 자료와 분할표 (0) | 2016.11.04 |
제3장 연속형 자료의 분석 - 3.2 여러집단의 비교 ANOVA (1) | 2016.10.31 |