반응형

데이터 마이닝 기법의 구분

데이터마이닝에서 사용되는 기법은 크게 지도학습(supervised learning)과 자율학습(unsupervised learning)으로 나눌 수 있음

 

 - 지도학습의 목표는 입출력 간의 관계를 결정하는 시스템에 대한 유용한 근사 시스템을 구하는 것으로 정의할 수 있음. Y = aX + b

- 자율학습에서는교사의 역할에 해당하는 실제 출력값이 존재하지 않음. 따라서 데이터에 존재하는 여러 가지 형태의 특징을 찾는 데 그 목표를 둔다.

 

<데이터 마이닝의 기법>



 


독일신용평가 데이터 셋

독일신용평가 데이터(German Credit Data)는 머신러닝 저장소에 탑재되어 있는 데이터로 분류의 예제로 많이 활용된다.

> setwd('c:/Rwork')

> german<-read.table('germandata.txt')

> head(german,2) # 값들의 변수명이 없음.


> names<-c("check","duration","history","purpose","credit","savings","employment","installment",   "personal",   "debtors",    "residence",  "property",   "age", "others",       "housing",    "numcredits", "job", "residpeople",      "telephone",       "foreign"     ,"y")

> colnames(german)<-names

> head(german,2)

 

> german$y<-factor(german$y,levels=c(1,2),labels=c('good','bad'))

> head(german,2)

  

> summary(german)

#  residence,numcredits,residpeople 실제 범주형이지만 수치형으로 인식. 범주형으로 변환 필요

 

> class(german$residence) #integer 수치형

[1] "integer"

> class(german$check) #factor 범주형

[1] "factor"

> german$residence = factor(german$residence)

> german$numcredits = factor(german$numcredits)

> german$residpeople = factor(german$residpeople)

> class(german$residence) #factor 변환

[1] "factor"

> class(german$numcredits) #factor 변환

[1] "factor"

> class(german$residpeople) #factor 변환

[1] "factor"

> table(german$residence)

1   2   3   4

130 308 149 413 

 

출처: 데이터마이닝, 장영재

반응형
Posted by 마르띤
,
반응형

매일 1%의 노력을 하였을 때 몇 일이 지나면 처음보다 2배의 실력이 늘어날까?


> n<-c(1:100)

> efforts<-1.01^n

> plot(efforts,xlab='days')

> abline(h=2.0)

> efforts[70]

[1] 2.006763

> abline(v=70)

매일 1%의 노력을 하였을 때 약 70일이 지나면 처음보다 2배의 실력이 늘어난다.



반응형
Posted by 마르띤
,
반응형

어느 집단에서 10명의 표본을 추출하여 다음과 같은 4개 문항에 대하여 설문조사를 실시했다.

문항 1: 귀하의 성별은? 1) 남자 2) 여자

문항 2: 귀하의 나이는? (단위: )

문항 3: 귀하의 교육 정도는? 1) 무학 2) 초등졸 3) 종졸 4) 고졸 5) 대졸

문항 4: 귀하의 월 수입은? (단위: 만 원)


설문조사를 실시하여 얻은 응답 데이터를 csv 파일로 저장하고 간단한 작업을 해보자.

 

> setwd('c:/Rwork')

> survey<-read.csv('설문조사 데이터.csv',header=T,sep=',')

> survey

일련번호 변수.1.성별. 변수.2.나이. 변수.3.교육정도. 변수.4..수입.

1         1            1           21                4             100

2         2            2           22                5             100

3         3            1           33                2             200

4         4            2           33                4             120

5         5            1           28                4              70

6         6            1           21                5             100

7         7            2           39                4             190

8         8            1           32                5             220

9         9            2           44                1             170

10       10            1           55                3             310

> summary(survey)

일련번호      변수.1.성별변수.2.나이변수.3.교육정도. 변수.4..수입.

Min.   : 1.00   Min.   :1.0   Min.   :21.0   Min.   :1.00     Min.   : 70.0 

1st Qu.: 3.25   1st Qu.:1.0   1st Qu.:23.5   1st Qu.:3.25     1st Qu.:100.0 

Median : 5.50   Median :1.0   Median :32.5   Median :4.00     Median :145.0 

Mean   : 5.50   Mean   :1.4   Mean   :32.8   Mean   :3.70     Mean   :158.0 

3rd Qu.: 7.75   3rd Qu.:2.0   3rd Qu.:37.5   3rd Qu.:4.75     3rd Qu.:197.5 

Max.   :10.00   Max.   :2.0   Max.   :55.0   Max.   :5.00     Max.   :310.0 

> colnames(survey)<-c('변수','성별','나이','교육정도',' 수입')

> survey

변수 성별 나이 교육정도 수입

1     1    1   21        4     100

2     2    2   22        5     100

3     3    1   33        2     200

4     4    2   33        4     120

5     5    1   28        4      70

6     6    1   21        5     100

7     7    2   39        4     190

8     8    1   32        5     220

9     9    2   44        1     170

10   10    1   55        3     310

> plot(survey$나이, survey$` 수입`)

 


 

> par(mfrow=c(1,2))

> plot(survey$나이, survey$` 수입`,pch=20)

> plot(survey$나이, survey$` 수입`,pch="+")

  

반응형

'KNOU > 1 통계학개론' 카테고리의 다른 글

변수의 종류  (0) 2016.06.28
Posted by 마르띤
,