'quantile' 태그의 글 목록

제6.5장 준모수적 방법 (0)	2017.01.26
제6.4장 모수적 방법 (0)	2017.01.26
제6.2장 비모수적 방법 - 2. 누적한계추정법 (0)	2017.01.26
제6.2장 비모수적 방법 - 1. 생명표 방법 (0)	2017.01.26
제5.1장 공분산 분석 - 2 공변량이 둘 이상인 경우 (2)	2017.01.13

제6.2장 비모수적 방법 - 2. 누적한계추정법

KNOU/2 보건 정보 데이터 분석 2017. 1. 26. 09:37

비모수적 방법 non-parametric method

6.2.2 누적한계추정법 product-limit method

생명표 방법: 기간을 1년, 6개월 등 특정 단위로 나눠 구분

누적한계추정법: 매 사건이 발생할 때 마다 해당 시점을 표기

누적한계추정법(product-limit method)은 생존함수를 추정하는 대표적인 방법 중 하나로 연구자의 이름을 따서 Kaplan-Meier추정법이라고도 한다. 모든 환자의 생존시간 또는 중도절단 시간이 각각 관찰되었다고 하자. 모든 자료의 생존시간 도는 중도절단 x1,…,투을 순서대로 배열한 것을 t1<t2<…<tn이라 하고, δi = 0, 그렇지 않은 경우 δi =1로 정의한다. 즉 중도 절단 되지 않고 사건이 발생한 경우 status = 1, 중도절단된 경우 stats = 0 로 표기한다.

예] 신장이식수술을 받은 15명 환자들의 호전기간(remission duration)이 아래와 같다고 하자. 여기서 +로 표기된 것은 중도절단된 자료를 가르킨다. 각 시점에서 생존함수를 누적한계추정법을 이용하여 추정해보자

표. 신장이식 환자들의 호전기간 (단위 : 일)

3.0 4.0+ 4.5 4.5 5.5 6.0 6.4 6.5 7.0 7.5 8.4+ 10.0+ 10.0 12.0 15.0

1. 데이터 불러오기

> library(survival)

> setwd('c:/Rwork')

> kidney<-read.table('kidney.txt',header=T)

> kidney #status =1 사건, 0 = 절단, 절단 표시 매우 중요

time status

1 3.0 1

2 4.0 0

3 4.5 1

4 4.5 1

5 5.5 1

6 6.0 1

7 6.4 1

8 6.5 1

9 7.0 1

10 7.5 1

11 8.4 0

12 10.0 0

13 10.0 1

14 12.0 1

15 15.0 1

> attach(kidney)

2. 누적한계추정치(Kaplan-Meier 추정치)

> fit1 = survfit(Surv(time,status)~1, data=kidney) #~ 우측에는 공변량

> summary(fit1)

Call: survfit(formula = Surv(time, status) ~ 1, data = kidney)

time n.risk n.event survival std.err lower 95% CI upper 95% CI

3.0 15 1 0.933 0.0644 0.8153 1.000

4.5 13 2 0.790 0.1081 0.6039 1.000

5.5 11 1 0.718 0.1198 0.5177 0.996

6.0 10 1 0.646 0.1275 0.4389 0.951

6.4 9 1 0.574 0.1320 0.3660 0.901

6.5 8 1 0.503 0.1336 0.2984 0.846

7.0 7 1 0.431 0.1324 0.2358 0.787

7.5 6 1 0.359 0.1283 0.1781 0.723

10.0 4 1 0.269 0.1237 0.1094 0.663

12.0 2 1 0.135 0.1135 0.0258 0.703

15.0 1 1 0.000 NaN NA NA

> fit1

Call: survfit(formula = Surv(time, status) ~ 1, data = kidney)

n events median 0.95LCL 0.95UCL

15 12 7 6 NA

Error: invalid multibyte character in parser at line 1

-> fit1 = survfit(Surv(time,status)~1, data=kidney) #~ 우측에는 공변량

6.5일 에서의 생존확률은 50.3%, 7.0일 이 지나면 생존율이 43.1%로 50%이하가 된다.

3. 사망시점의 사분위수 추정치와 그의 신뢰구간, 가령 사망자가 50%되는 시점은 언제인가?

> quantile(fit1,probs=c(0.25,0.5,0.75),conf.int=T) #신뢰구간까지

$quantile

25 50 75

5.5 7.0 12.0

$lower

25 50 75

4.5 6.0 7.0

$upper

25 50 75

7.5 NA NA

-> 생존확률이 75%인 경우, 즉 사망확률이 25%인 경우의 시점은 5.5일, 생존확률이 50%인 경우 7.0일, 생존확율이 25%인 경우의 시점은 12.0 일

4. 누적한계추정치의 95% 신뢰구간 그래프

> plot(fit1,xlab='time',ylab='Survival function',lwd=2)

> legend(0.2,0.3,c('KM estimate','95% CI'),lty=c(1,2))

-> 점선은 신뢰구간을 의미, 실선은 생존함수추정치.생존확율이 50%인 경우는 약 7.0일임을 알 수 있다.

출처: 보건정보 데이터분석 (이태림, 이재원, 김주한, 장대흥 공저)

'KNOU > 2 보건 정보 데이터 분석' 카테고리의 다른 글

제6.4장 모수적 방법 (0)	2017.01.26
제6.3장 비모수적 방법을 이용한 생존함수의 비교 (0)	2017.01.26
제6.2장 비모수적 방법 - 1. 생명표 방법 (0)	2017.01.26
제5.1장 공분산 분석 - 2 공변량이 둘 이상인 경우 (2)	2017.01.13
제5.1장 공분산 분석 - 1. 공변량이 하나인 경우 (0)	2017.01.06

Posted by 마르띤

,

제2장 보건정보 데이터의 기초분석

KNOU/2 보건 정보 데이터 분석 2016. 12. 27. 10:11

p.46 제2장 보건 정보 데이터의 기초 분석

2.3 자료의 기술 및 요약

> setwd('c:/Rwork/')

> 담즙과포화비율자료 = read.table('담즙과포화비율.txt',header=T)

> attach(담즙과포화비율자료)

> head(담즙과포화비율자료,2)

성별 담즙의과포화비율

1 남자 40

2 남자 88

> plot(담즙의과포화비율,type='p',xlab='자료',ylab='담즙과포화비율',main='담즙과포화비율')

> par(new=T)

> plot(담즙의과포화비율,type='h',xlab='자료',ylab='담즙과포화비율',main='담즙과포화비율')

> length(담즙의과포화비율)

[1] 60

> length(담즙의과포화비율) #길이

[1] 60

> sort(담즙의과포화비율,decreasing=T) #내림차순

[1] 146 142 137 128 127 123 123 120 118 116 112 111 110 110 107 106 106 98 91 90 89 88 88

[24] 88 87 87 86 86 86 84 84 82 80 80 80 79 78 77 76 76 75 74 73 73 69 67

[47] 66 66 65 65 58 58 57 56 55 52 52 47 40 35

> sum(담즙의과포화비율) #합

[1] 5185

> cumsum(담즙의과포화비율) #누적합

[1] 40 128 238 295 381 518 596 707 795 875 961 1041 1088 1194 1259 1333 1399 1478

[19] 1536 1659 1746 1834 1924 1980 2053 2165 2275 2393 2445 2551 2618 2683 2735 2819 2905 2940

[37] 3056 3132 3187 3260 3349 3476 3563 3705 3782 3858 3916 4007 4114 4212 4340 4424 4570 4645

[55] 4765 4845 4927 5050 5116 5185

> mean(담즙의과포화비율);median(담즙의과포화비율) #평균과 중앙값

[1] 86.41667

[1] 84

> mean(담즙의과포화비율,trim=1/10) #10% 절삭

[1] 85.4375

> var(담즙의과포화비율);sd(담즙의과포화비율) #분산과 표준편차

[1] 657.1624

[1] 25.63518

> fivenum(담즙의과포화비율) #다섯숫자요약

[1] 35.0 68.0 84.0 106.5 146.0

> quantile(담즙의과포화비율)

0% 25% 50% 75% 100%

35.00 68.50 84.00 106.25 146.00

> IQR(담즙의과포화비율) #3사분위수-1사분위수

[1] 37.75

> quantile(담즙의과포화비율)[4]-quantile(담즙의과포화비율)[2]

75%

37.75

> mad(담즙의과포화비율) #Median Absolut Deviation 각 데이터에서 중앙값을 뺀 후 절대값을 취한 값들의 중앙값

[1] 26.6868

> max(담즙의과포화비율);min(담즙의과포화비율)

[1] 146

[1] 35

> range(담즙의과포화비율)

[1] 35 146

> R=max(담즙의과포화비율)-min(담즙의과포화비율)

> R

[1] 111

2. 4 표와 그래프를 이용한 자료의 요약

> head(담즙과포화비율자료,2)

성별 담즙의과포화비율

1 남자 40

2 남자 88

> 계급 = cut(담즙의과포화비율, breaks=c(20,40,60,80,100,120,140,160))

> head(계급)

[1] (20,40] (80,100] (100,120] (40,60] (80,100] (120,140]

Levels: (20,40] (40,60] (60,80] (80,100] (100,120] (120,140] (140,160]

> table(계급)

계급

(20,40] (40,60] (60,80] (80,100] (100,120] (120,140] (140,160]

2 8 18 15 10 5 2

> par(mfrow=c(1,1))

> hist(담즙의과포화비율,breaks=c(20,40,60,80,100,120,140,160),main='히스토그램')

> rug(담즙의과포화비율)

> stem(담즙의과포화비율) #나무 줄기 그림

The decimal point is 1 digit(s) to the right of the |

2 | 5

4 | 072256788

6 | 556679334566789

8 | 000244666778889018

10 | 667001268

12 | 033787

14 | 26

> stem(담즙의과포화비율,scale=2) #줄기의 마디 2배로 늘리기

The decimal point is 1 digit(s) to the right of the |

3 | 5

4 | 07

5 | 2256788

6 | 556679

7 | 334566789

8 | 000244666778889

9 | 018

10 | 667

11 | 001268

12 | 03378

13 | 7

14 | 26

> library(vioplot)

> vioplot(담즙의과포화비율,names='담즙의과포화비율',col='yellow')

> n=length(담즙의과포화비율)

> plot(sort(담즙의과포화비율),(1:n)/n,type='s',ylim=c(0,1),main='Ogive of bile supersaturation',ylab='ECDF',xlab='담즙과포화비율') #ogive 오자이브 그래프

> rug(담즙의과포화비율)

출처: 보건정보데이터 분석(이태림, 이재원, 김주한, 장대흥 공저)

'KNOU > 2 보건 정보 데이터 분석' 카테고리의 다른 글

제4장 범주형 자료의 분석 - 4.3 로짓분석 (0)	2017.01.04
제4장 범주형 자료의 분석 - 4.2.4 대응자료 및 사례 - 대조군 검정 (0)	2016.12.29
제4장 범주형 자료의 분석 - 4.2.2 독립성 검정 (카이제곱 검정) (0)	2016.11.08
제4장 범주형 자료의 분석 - 4.2 범주형 자료의 검정(카이제곱 검정) (0)	2016.11.04
제4장 범주형 자료의 분석 - 4.1 범주형 자료와 분할표 (0)	2016.11.04

Posted by 마르띤

,

BCG 처리 그룹	33.7+	3.9	10.5	5.4	19.5	23.8+	7.9
BCG 처리 그룹	16.9+	16.6+	33.7+	17.1+
CP 처리 그룹	8.0	26.9+	21.4+	18.1+	16.0+	6.9	11.0+
	24.8+	23.0+	8.3	10.8+	12.2+	12.5+	24.4
	7.7	14.8+	8.2+	8.2+	7.8+

데이터마이너를 꿈꾸며

'quantile'에 해당되는 글 3건

제6.3장 비모수적 방법을 이용한 생존함수의 비교

'KNOU > 2 보건 정보 데이터 분석' 카테고리의 다른 글

제6.2장 비모수적 방법 - 2. 누적한계추정법

'KNOU > 2 보건 정보 데이터 분석' 카테고리의 다른 글

제2장 보건정보 데이터의 기초분석

'KNOU > 2 보건 정보 데이터 분석' 카테고리의 다른 글

링크

카테고리

최근에 올라온 글

최근에 받은 트랙백

글 보관함

티스토리툴바