문제: A제품과 B 제품이 있는데, B 제품의 제품 클레임이 A제품보다 많다고 한다. A, B 두 제품의 품질 간에 유의한 차이가 있는지 독립표본 두 모평균 비교를 수행하라.
1. 데이터를 불러오자.
> setwd('c:/Rwork')
> claim<-read.csv('claim.csv',header = T)
> boxplot(ppm~제품, data=claim)
##A와 B를 나누어 살펴보기
> library(dplyr)
> claim.A <- claim %>% filter(제품 == "A")
> claim.B <- claim %>% filter(제품 == "B")
> nrow(claim.A) ; nrow(claim.B)
[1] 105
[1] 40
> claim.A$제품 %>% table #질적-명목형 변수
A B
105 0
> claim.A$ppm %>% summary #양적-이산형 변수
Min. 1st Qu. Median Mean 3rd Qu. Max.
3.0 83.0 211.0 259.7 385.0 994.0
> claim.A$ppm %>% sd
[1] 217.4249
> claim.B$ppm %>% summary #양적-이산형 변수
Min. 1st Qu. Median Mean 3rd Qu. Max.
29.00 71.25 145.50 272.60 345.20 1104.00
> claim.B$ppm %>% sd
[1] 279.8323
> par(mfrow=c(1,2))
> claim.A$ppm %>% hist
> claim.B$ppm %>% hist
-> 해석: A의 평균 ppm은 259, 표준편차는217, B는 평균이 272, 표준편차 279. Boxplot과 Histogram만으로는 확연히 B의 클레임 ppm이 높다고는 볼 수 없다.
2. R을 이용하여 통계 분석을 해보자.
두 집단의 평균이 같은지를 비교하여 두 집단의 차이를 평가하는 경우 two-sample t-test를 사용하는데, 쌍을 이룬 두 변수 간에 차이의 평균이 0인지 검정하는 paired t-test와는 달리 서로 독립적인 두 집단의 평균의 차이가 0인지를 검정한다. Two-sample t-test는 다음 순서를 따른다.
① 두 집단의 분산이 같은지 검정하자.
> var.test(ppm~제품, data=claim)
F test to compare two variances
data: ppm by 제품
F = 0.6037, num df = 104, denom df = 39, p-value = 0.04555
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.3454412 0.9901513
sample estimates:
ratio of variances
0.6037024
-> 해석:
귀무가설 H0: 두 모형의 분산이 같다.
대립가설 H1: 두 모형의 분산이 다르다.
F = 0.6037, num df = 104, denom df = 39, p-value = 0.04555
두 분산의 비율이 0.6배이고, p값이 0.05보다 작으므로 두 분산이 같다는 귀무가설을 기각, 즉 두 모집단이 다르다, 분산이 다른 경우 에는 welch의 t.test를 한다.
② 분산이 다른 경우 에는 welch의 t.test 실시한다.
> t.test(ppm~제품,data=claim)
Welch Two Sample t-test
data: ppm by 제품
t = -0.26303, df = 57.854, p-value = 0.7935
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-111.13697 85.32268
sample estimates:
mean in group A mean in group B
259.7429 272.6500
-> 해석:
귀무가설 H0: μ1-μ2 = 0,
대립가설 H1: μ1-μ2 ≠ 0
검정통계량 T(df=57.854)=-0.26303
p-value 0.7935 > 0.05
평균이 같다는 귀무가설을 기각하지 못한다. 즉 제품 A와 제품B간에는 유의수준 5%에서 품질 차이가 없다고 결론지을 수 있다.
아직 R과 통계 공부 걸음마 단계인데 어서 익숙해지고 싶다.
'Python, R 분석과 프로그래밍' 카테고리의 다른 글
[R vs Python] 무엇이 더 좋을까? Chat GPT에게 물어보다 (0) | 2023.08.03 |
---|---|
stars 함수 - 파이조각그림, 나이팅게일 차트 (0) | 2016.05.24 |
R 회귀분석 (0) | 2016.02.28 |
[미완성] 중국 sohu 크롤링 연습 (0) | 2016.02.20 |
beer data 연습 (0) | 2015.11.10 |