'독립표본' 태그의 글 목록

'독립표본'에 해당되는 글 2건

제3장 연속형 자료의 분석 - 3.1 두 집단의 평균 비교 two sample, paired sample

KNOU/2 보건 정보 데이터 분석 2016. 10. 24. 09:43

제3장 연속형 자료의 분석

3.1 두 집단의 평균비교

3.1.1 독립표본의 평균비교 two sample test

예제) 흡연자 집단과 비흡연자 집단 간 폐 파괴지수를 측정하였다. 높은 수치는 폐의 손상이 크다는 것을 뜻한다. 흡연자와 비흡연자의 폐 파괴지수의 평균이 같다고 할 수 있는가? (각 그룹에서의 관측치들은 정규분포를 따르는 모집단으로부터 독립적으로 얻어진 것이며 두 그룹에서의 모분산은 같다고 가정하자. )

귀무가설 H0: 흡연자와 비흡연자의 폐 파괴지수 평균은 같다.

대립가설 H1: 흡연자와 비흡연자의 폐 파괴지수 평균은 다르다. (양측 검정)

#1. 자료 입력

> smoke=c(16.6,13.9,11.3,26.5,17.4,15.3,15.8,12.3,18.6,12,24.1,16.5,21.8,16.3,23.4,18.8)

> nonsmoke=c(18.1,6,10.8,11,7.7,17.9,8.5,13,18.9)

> sapply(list(smoke,nonsmoke),mean)

[1] 17.53750 12.43333

> sapply(list(smoke,nonsmoke),sd)

[1] 4.475247 4.849227

#2. 정규성 검정

> qqnorm(smoke,main='smoke')

> qqline(smoke,col='blue')

> shapiro.test(smoke)

Shapiro-Wilk normality test

data: smoke

W = 0.94511, p-value = 0.4163

결과 해석: shapiro.test의 결과에 따라 p value = 0.4163 > 0.05 이므로 귀무가설 기각 못한다, 즉 정규분포를 따른다

> qqnorm(nonsmoke,main = 'nonsmoke')

> qqline(nonsmoke,col='red')

> shapiro.test(nonsmoke)

Shapiro-Wilk normality test

data: nonsmoke

W = 0.90366, p-value = 0.274

#boxplot과 vioplot

> boxplot(smoke,nonsmoke,col='yellow',names=c('smoke','nonsmoke'))

> library(vioplot)

> vioplot(smoke,nonsmoke,col='yellow',names=c('smoke','nonsmoke'))

결과 해석: 두 집단에 차이가 있음을 알 수 있다.

#3. 두 모분산 비교 (양측검정)

#대립 가설의 형태: alternative = c('two.sided','less','greater')

> var.test(smoke,nonsmoke)

F test to compare two variances

data: smoke and nonsmoke

F = 0.8517, num df = 15, denom df = 8, p-value = 0.7498

alternative hypothesis: true ratio of variances is not equal to 1

95 percent confidence interval:

0.2076714 2.7243799

sample estimates:

ratio of variances

0.8517046

결과 해석: p value 가 0.7498로 분산이 같다는 귀무가설을 기각할 수 없다. 즉, 등분산 가정

#4.두 모분산 비교 (양측검정) - 등분산 가정

> t.test(smoke,nonsmoke,var.equal = T)

Two Sample t-test

data: smoke and nonsmoke

t = 2.658, df = 23, p-value = 0.01405

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

1.131680 9.076653

sample estimates:

mean of x mean of y

17.53750 12.43333

결과해석:

귀무가설 H0: 흡연자와 비흡연자의 폐 파괴지수 평균은 같다.

대립가설 H1: 흡연자와 비흡연자의 폐 파괴지수 평균은 다르다. (양측 검정)

결정: p value는 p value는 0.01405로 두 모 평균이 같다는 귀무가설을 기각한다. 즉, 두 모평균이 서로 다르다.

#5.두 모분산 비교 (양측검정) - 이분산 가정

> t.test(smoke,nonsmoke)

Welch Two Sample t-test

data: smoke and nonsmoke

t = 2.5964, df = 15.593, p-value = 0.01978

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

0.9279143 9.2804190

sample estimates:

mean of x mean of y

17.53750 12.43333

결과해석: 등분산 가정과 큰 차이는 없다.

3.1.2 짝지은 표본의 평균비교 paired sample test

예) 환자 15명에게 혈압강하제를 12주 투입 후 혈압을 비교하였다. 새로운 약은 효과적인가?

귀무가설 h0: u1-u2 = 0

대립가설 h1: u1 > u2

1) 데이터 입력

> before=c(90,56,49,64,65,88,62,91,74,93,55,71,54,64,54)

> after=c(72,55,56,57,62,79,55,72,73,74,58,59,58,71,61)

> diff = before - after

2) 정규성 차이: shapiro – wilk test

> qqnorm(diff)

> qqline(diff,col='red')

> shapiro.test(diff)

Shapiro-Wilk normality test

data: diff

W = 0.90982, p-value = 0.1345

결과 해석: shapiro test 결과 p value는 0.1345로써 정규분포를 이루고 있다고 할 수 있다.

3) Paired sample test

> mean(diff) ; sd(diff)

[1] 4.533333

[1] 9.425396

> t.test(before, after, paired = T, alternative = 'greater') #μ 복용 전 > μ 복용 후

Paired t-test

data: before and after

t = 1.8628, df = 14, p-value = 0.0418

alternative hypothesis: true difference in means is greater than 0

95 percent confidence interval:

0.2469617 Inf

sample estimates:

mean of the differences

4.533333

귀무가설 H0: 약 복용전과 복용 후의 혈압 수치는 같다. μ 복용 전 = μ 복용 후

대립가설 H1: 약 복용전 대비 복용 후의 혈압 수치기 다 낮다. μ 복용 전 > μ 복용 후

결론: 단측 검정에 대한 p value가 0.0418로서 유의수준 5%에서 두 그룹의 혈압 차이가 없다는 귀무가설을 기각할 만한 충분한 증거가 있으므로 새로운 약이 혈압을 내린다고 볼 수 있다.

출처: 보건 정보 데이터 분석(이태림 저자)

'KNOU > 2 보건 정보 데이터 분석' 카테고리의 다른 글

제2장 보건정보 데이터의 기초분석 (1)	2016.12.27
제4장 범주형 자료의 분석 - 4.2.2 독립성 검정 (카이제곱 검정) (0)	2016.11.08
제4장 범주형 자료의 분석 - 4.2 범주형 자료의 검정(카이제곱 검정) (0)	2016.11.04
제4장 범주형 자료의 분석 - 4.1 범주형 자료와 분할표 (0)	2016.11.04
제3장 연속형 자료의 분석 - 3.2 여러집단의 비교 ANOVA (1)	2016.10.31

Posted by 마르띤

[독립표본 두 모평균 비교] 제품A와 B간 품질 차이 비교

Python, R 분석과 프로그래밍 2016. 9. 2. 19:26

문제: A제품과 B 제품이 있는데, B 제품의 제품 클레임이 A제품보다 많다고 한다. A, B 두 제품의 품질 간에 유의한 차이가 있는지 독립표본 두 모평균 비교를 수행하라.

1. 데이터를 불러오자.

> setwd('c:/Rwork')

> claim<-read.csv('claim.csv',header = T)

> boxplot(ppm~제품, data=claim)

##A와 B를 나누어 살펴보기

> library(dplyr)

> claim.A <- claim %>% filter(제품 == "A")

> claim.B <- claim %>% filter(제품 == "B")

> nrow(claim.A) ; nrow(claim.B)

[1] 105

[1] 40

> claim.A$제품 %>% table #질적-명목형 변수

A B

105 0

> claim.A$ppm %>% summary #양적-이산형 변수

Min. 1st Qu. Median Mean 3rd Qu. Max.

3.0 83.0 211.0 259.7 385.0 994.0

> claim.A$ppm %>% sd

[1] 217.4249

> claim.B$ppm %>% summary #양적-이산형 변수

Min. 1st Qu. Median Mean 3rd Qu. Max.

29.00 71.25 145.50 272.60 345.20 1104.00

> claim.B$ppm %>% sd

[1] 279.8323

> par(mfrow=c(1,2))

> claim.A$ppm %>% hist

> claim.B$ppm %>% hist

-> 해석: A의 평균 ppm은 259, 표준편차는217, B는 평균이 272, 표준편차 279. Boxplot과 Histogram만으로는 확연히 B의 클레임 ppm이 높다고는 볼 수 없다.

2. R을 이용하여 통계 분석을 해보자.

두 집단의 평균이 같은지를 비교하여 두 집단의 차이를 평가하는 경우 two-sample t-test를 사용하는데, 쌍을 이룬 두 변수 간에 차이의 평균이 0인지 검정하는 paired t-test와는 달리 서로 독립적인 두 집단의 평균의 차이가 0인지를 검정한다. Two-sample t-test는 다음 순서를 따른다.

① 두 집단의 분산이 같은지 검정하자.

> var.test(ppm~제품, data=claim)

F test to compare two variances

data: ppm by 제품

F = 0.6037, num df = 104, denom df = 39, p-value = 0.04555

alternative hypothesis: true ratio of variances is not equal to 1

95 percent confidence interval:

0.3454412 0.9901513

sample estimates:

ratio of variances

0.6037024

-> 해석:

귀무가설 H0: 두 모형의 분산이 같다.

대립가설 H1: 두 모형의 분산이 다르다.

F = 0.6037, num df = 104, denom df = 39, p-value = 0.04555

두 분산의 비율이 0.6배이고, p값이 0.05보다 작으므로 두 분산이 같다는 귀무가설을 기각, 즉 두 모집단이 다르다, 분산이 다른 경우 에는 welch의 t.test를 한다.

② 분산이 다른 경우 에는 welch의 t.test 실시한다.

> t.test(ppm~제품,data=claim)

Welch Two Sample t-test

data: ppm by 제품

t = -0.26303, df = 57.854, p-value = 0.7935

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-111.13697 85.32268

sample estimates:

mean in group A mean in group B

259.7429 272.6500

-> 해석:

귀무가설 H0: μ1-μ2 = 0,

대립가설 H1: μ1-μ2 ≠ 0

검정통계량 T(df=57.854)=-0.26303

p-value 0.7935 > 0.05

평균이 같다는 귀무가설을 기각하지 못한다. 즉 제품 A와 제품B간에는 유의수준 5%에서 품질 차이가 없다고 결론지을 수 있다.

아직 R과 통계 공부 걸음마 단계인데 어서 익숙해지고 싶다.

'Python, R 분석과 프로그래밍' 카테고리의 다른 글

[R vs Python] 무엇이 더 좋을까? Chat GPT에게 물어보다 (0)	2023.08.03
stars 함수 - 파이조각그림, 나이팅게일 차트 (0)	2016.05.24
R 회귀분석 (0)	2016.02.28
[미완성] 중국 sohu 크롤링 연습 (0)	2016.02.20
beer data 연습 (0)	2015.11.10

Posted by 마르띤

이전 1 다음

데이터마이너를 꿈꾸며

'독립표본'에 해당되는 글 2건

제3장 연속형 자료의 분석 - 3.1 두 집단의 평균 비교 two sample, paired sample

'KNOU > 2 보건 정보 데이터 분석' 카테고리의 다른 글

[독립표본 두 모평균 비교] 제품A와 B간 품질 차이 비교

'Python, R 분석과 프로그래밍' 카테고리의 다른 글

링크

카테고리

최근에 올라온 글

최근에 받은 트랙백

글 보관함

티스토리툴바