1장 데이터과학과 데이터마이닝

KNOU/2 데이터마이닝

1장 데이터과학과 데이터마이닝

마르띤 2016. 8. 26. 14:03

데이터 마이닝 기법의 구분

데이터마이닝에서 사용되는 기법은 크게 지도학습(supervised learning)과 자율학습(unsupervised learning)으로 나눌 수 있음

- 지도학습의 목표는 입출력 간의 관계를 결정하는 시스템에 대한 유용한 근사 시스템을 구하는 것으로 정의할 수 있음. Y = aX + b

- 자율학습에서는 ‘교사’의 역할에 해당하는 실제 출력값이 존재하지 않음. 따라서 데이터에 존재하는 여러 가지 형태의 특징을 찾는 데 그 목표를 둔다.

<데이터 마이닝의 기법>

독일신용평가 데이터 셋

독일신용평가 데이터(German Credit Data)는 머신러닝 저장소에 탑재되어 있는 데이터로 분류의 예제로 많이 활용된다.

> setwd('c:/Rwork')

> german<-read.table('germandata.txt')

> head(german,2) #열 값들의 변수명이 없음.

> names<-c("check","duration","history","purpose","credit","savings","employment","installment", "personal", "debtors", "residence", "property", "age", "others", "housing", "numcredits", "job", "residpeople", "telephone", "foreign" ,"y")

> colnames(german)<-names

> head(german,2)

> german$y<-factor(german$y,levels=c(1,2),labels=c('good','bad'))

> head(german,2)

> summary(german)

# residence,numcredits,residpeople는 실제 범주형이지만 수치형으로 인식. 범주형으로 변환 필요

> class(german$residence) #integer 수치형

[1] "integer"

> class(german$check) #factor 범주형

[1] "factor"

> german$residence = factor(german$residence)

> german$numcredits = factor(german$numcredits)

> german$residpeople = factor(german$residpeople)

> class(german$residence) #factor로 변환

[1] "factor"

> class(german$numcredits) #factor로 변환

[1] "factor"

> class(german$residpeople) #factor로 변환

[1] "factor"

> table(german$residence)

1 2 3 4

130 308 149 413

출처: 데이터마이닝, 장영재