반응형

문제: A제품과 B 제품이 있는데, B 제품의 제품 클레임이 A제품보다 많다고 한다. A, B 두 제품의 품질 간에 유의한 차이가 있는지 독립표본 두 모평균 비교를 수행하라.

 

1. 데이터를 불러오자.

> setwd('c:/Rwork')

> claim<-read.csv('claim.csv',header = T)

> boxplot(ppm~제품, data=claim) 

 

##A B 나누어 살펴보기

> library(dplyr)

> claim.A <- claim %>% filter(제품 == "A")

> claim.B <- claim %>% filter(제품 == "B")

> nrow(claim.A) ; nrow(claim.B)

[1] 105

[1] 40

 

> claim.A$제품 %>% table #질적-명목형 변수

A   B

105   0

> claim.A$ppm %>% summary #양적-이산형 변수

Min. 1st Qu.  Median    Mean 3rd Qu.    Max.

3.0    83.0   211.0   259.7   385.0   994.0

> claim.A$ppm %>% sd

[1] 217.4249


> claim.B$ppm %>% summary #양적-이산형 변수

Min. 1st Qu.  Median    Mean 3rd Qu.    Max.

29.00   71.25  145.50  272.60  345.20 1104.00

> claim.B$ppm %>% sd

[1] 279.8323

> par(mfrow=c(1,2))

> claim.A$ppm %>% hist

> claim.B$ppm %>% hist


-> 해석: A의 평균 ppm 259, 표준편차는217, B는 평균이 272, 표준편차 279. BoxplotHistogram만으로는 확연히 B의 클레임 ppm이 높다고는 볼 수 없다.

 


2. R을 이용하여 통계 분석을 해보자.

두 집단의 평균이 같은지를 비교하여 두 집단의 차이를 평가하는 경우 two-sample t-test를 사용하는데, 쌍을 이룬 두 변수 간에 차이의 평균이 0인지 검정하는 paired t-test와는 달리 서로 독립적인 두 집단의 평균의 차이가 0인지를 검정한다. Two-sample t-test는 다음 순서를 따른다.

 

두 집단의 분산이 같은지 검정하자.

> var.test(ppm~제품, data=claim)

F test to compare two variances

 

data:  ppm by 제품

F = 0.6037, num df = 104, denom df = 39, p-value = 0.04555

alternative hypothesis: true ratio of variances is not equal to 1

95 percent confidence interval:

  0.3454412 0.9901513

sample estimates:

  ratio of variances

0.6037024

-> 해석:

귀무가설 H0: 두 모형의 분산이 같다.

대립가설 H1: 두 모형의 분산이 다르다.

F = 0.6037, num df = 104, denom df = 39, p-value = 0.04555

두 분산의 비율이 0.6배이고, p값이 0.05보다 작으므로 두 분산이 같다는 귀무가설을 기각, 즉 두 모집단이 다르다, 분산이 다른 경우 에는 welch t.test를 한다.

 

분산이 다른 경우 에는 welch t.test 실시한다.

> t.test(ppm~제품,data=claim)

 

Welch Two Sample t-test

 

data:  ppm by 제품

t = -0.26303, df = 57.854, p-value = 0.7935

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

  -111.13697   85.32268

sample estimates:

  mean in group A mean in group B

259.7429        272.6500

-> 해석:

귀무가설 H0: μ1-μ2 = 0,

대립가설 H1: μ1-μ2 ≠ 0

검정통계량 T(df=57.854)=-0.26303

p-value 0.7935 > 0.05


평균이 같다는 귀무가설을 기각하지 못한다. 즉 제품 A와 제품B간에는 유의수준 5%에서 품질 차이가 없다고 결론지을 수 있다.



아직 R과 통계 공부 걸음마 단계인데 어서 익숙해지고 싶다.

반응형
Posted by 마르띤
,