1장 데이터과학과 데이터마이닝
데이터 마이닝 기법의 구분
데이터마이닝에서 사용되는 기법은 크게 지도학습(supervised learning)과 자율학습(unsupervised learning)으로 나눌 수 있음
- 지도학습의 목표는 입출력 간의 관계를 결정하는 시스템에 대한 유용한 근사 시스템을 구하는 것으로 정의할 수 있음. Y = aX + b
- 자율학습에서는 ‘교사’의 역할에 해당하는 실제 출력값이 존재하지 않음. 따라서 데이터에 존재하는 여러 가지 형태의 특징을 찾는 데 그 목표를 둔다.
<데이터 마이닝의 기법>
독일신용평가 데이터 셋
독일신용평가 데이터(German Credit Data)는 머신러닝 저장소에 탑재되어 있는 데이터로 분류의 예제로 많이 활용된다.
> setwd('c:/Rwork')
> german<-read.table('germandata.txt')
> head(german,2) #열 값들의 변수명이 없음.
> names<-c("check","duration","history","purpose","credit","savings","employment","installment", "personal", "debtors", "residence", "property", "age", "others", "housing", "numcredits", "job", "residpeople", "telephone", "foreign" ,"y")
> colnames(german)<-names
> head(german,2)
> german$y<-factor(german$y,levels=c(1,2),labels=c('good','bad'))
> head(german,2)
> summary(german)
# residence,numcredits,residpeople는 실제 범주형이지만 수치형으로 인식. 범주형으로 변환 필요
> class(german$residence) #integer 수치형
[1] "integer"
> class(german$check) #factor 범주형
[1] "factor"
> german$residence = factor(german$residence)
> german$numcredits = factor(german$numcredits)
> german$residpeople = factor(german$residpeople)
> class(german$residence) #factor로 변환
[1] "factor"
> class(german$numcredits) #factor로 변환
[1] "factor"
> class(german$residpeople) #factor로 변환
[1] "factor"
> table(german$residence)
1 2 3 4
130 308 149 413
출처: 데이터마이닝, 장영재