데이터 마이닝 기법의 구분
데이터마이닝에서 사용되는 기법은 크게 지도학습(supervised learning)과 자율학습(unsupervised learning)으로 나눌 수 있음
- 지도학습의 목표는 입출력 간의 관계를 결정하는 시스템에 대한 유용한 근사 시스템을 구하는 것으로 정의할 수 있음. Y = aX + b
- 자율학습에서는 ‘교사’의 역할에 해당하는 실제 출력값이 존재하지 않음. 따라서 데이터에 존재하는 여러 가지 형태의 특징을 찾는 데 그 목표를 둔다.
<데이터 마이닝의 기법>
독일신용평가 데이터 셋
독일신용평가 데이터(German Credit Data)는 머신러닝 저장소에 탑재되어 있는 데이터로 분류의 예제로 많이 활용된다.
> setwd('c:/Rwork')
> german<-read.table('germandata.txt')
> head(german,2) #열 값들의 변수명이 없음.
> names<-c("check","duration","history","purpose","credit","savings","employment","installment", "personal", "debtors", "residence", "property", "age", "others", "housing", "numcredits", "job", "residpeople", "telephone", "foreign" ,"y")
> colnames(german)<-names
> head(german,2)
> german$y<-factor(german$y,levels=c(1,2),labels=c('good','bad'))
> head(german,2)
> summary(german)
# residence,numcredits,residpeople는 실제 범주형이지만 수치형으로 인식. 범주형으로 변환 필요
> class(german$residence) #integer 수치형
[1] "integer"
> class(german$check) #factor 범주형
[1] "factor"
> german$residence = factor(german$residence)
> german$numcredits = factor(german$numcredits)
> german$residpeople = factor(german$residpeople)
> class(german$residence) #factor로 변환
[1] "factor"
> class(german$numcredits) #factor로 변환
[1] "factor"
> class(german$residpeople) #factor로 변환
[1] "factor"
> table(german$residence)
1 2 3 4
130 308 149 413
출처: 데이터마이닝, 장영재
'KNOU > 2 데이터마이닝' 카테고리의 다른 글
제3장 나무모형 - 회귀나무모형 (0) | 2016.10.26 |
---|---|
제3장 나무모형 - 분류나무모형 (4) | 2016.10.18 |
제2장 회귀모형 - 로지스틱 회귀모형 연습 (0) | 2016.09.14 |
제2장 회귀모형 - 선형회귀 연습 (0) | 2016.09.14 |
제2장 회귀모형 - 선형회귀, 로지스틱회귀 (0) | 2016.09.14 |