데이터마이너를 꿈꾸며

1장 데이터과학과 데이터마이닝

KNOU/2 데이터마이닝 2016. 8. 26. 14:03

데이터 마이닝 기법의 구분

데이터마이닝에서 사용되는 기법은 크게 지도학습(supervised learning)과 자율학습(unsupervised learning)으로 나눌 수 있음

- 지도학습의 목표는 입출력 간의 관계를 결정하는 시스템에 대한 유용한 근사 시스템을 구하는 것으로 정의할 수 있음. Y = aX + b

- 자율학습에서는 ‘교사’의 역할에 해당하는 실제 출력값이 존재하지 않음. 따라서 데이터에 존재하는 여러 가지 형태의 특징을 찾는 데 그 목표를 둔다.

<데이터 마이닝의 기법>

독일신용평가 데이터 셋

독일신용평가 데이터(German Credit Data)는 머신러닝 저장소에 탑재되어 있는 데이터로 분류의 예제로 많이 활용된다.

> setwd('c:/Rwork')

> german<-read.table('germandata.txt')

> head(german,2) #열 값들의 변수명이 없음.

> names<-c("check","duration","history","purpose","credit","savings","employment","installment", "personal", "debtors", "residence", "property", "age", "others", "housing", "numcredits", "job", "residpeople", "telephone", "foreign" ,"y")

> colnames(german)<-names

> head(german,2)

> german$y<-factor(german$y,levels=c(1,2),labels=c('good','bad'))

> head(german,2)

> summary(german)

# residence,numcredits,residpeople는 실제 범주형이지만 수치형으로 인식. 범주형으로 변환 필요

> class(german$residence) #integer 수치형

[1] "integer"

> class(german$check) #factor 범주형

[1] "factor"

> german$residence = factor(german$residence)

> german$numcredits = factor(german$numcredits)

> german$residpeople = factor(german$residpeople)

> class(german$residence) #factor로 변환

[1] "factor"

> class(german$numcredits) #factor로 변환

[1] "factor"

> class(german$residpeople) #factor로 변환

[1] "factor"

> table(german$residence)

1 2 3 4

130 308 149 413

출처: 데이터마이닝, 장영재

'KNOU > 2 데이터마이닝' 카테고리의 다른 글

제3장 나무모형 - 회귀나무모형 (0)	2016.10.26
제3장 나무모형 - 분류나무모형 (4)	2016.10.18
제2장 회귀모형 - 로지스틱 회귀모형 연습 (0)	2016.09.14
제2장 회귀모형 - 선형회귀 연습 (0)	2016.09.14
제2장 회귀모형 - 선형회귀, 로지스틱회귀 (0)	2016.09.14

Posted by 마르띤

,

매일 1%씩 노력할 때 실력이 2배 증가하기 까지 걸리는 시간

카테고리 없음 2016. 8. 8. 10:29

매일 1%의 노력을 하였을 때 몇 일이 지나면 처음보다 2배의 실력이 늘어날까?

> n<-c(1:100)

> efforts<-1.01^n

> plot(efforts,xlab='days')

> abline(h=2.0)

> efforts[70]

[1] 2.006763

> abline(v=70)

매일 1%의 노력을 하였을 때 약 70일이 지나면 처음보다 2배의 실력이 늘어난다.

Posted by 마르띤

,

범주형 데이터와 연속형 데이터, 그리고 산점도

KNOU/1 통계학개론 2016. 6. 28. 22:40

어느 집단에서 10명의 표본을 추출하여 다음과 같은 4개 문항에 대하여 설문조사를 실시했다.

문항 1: 귀하의 성별은? 1) 남자 2) 여자

문항 2: 귀하의 나이는? (단위: 세)

문항 3: 귀하의 교육 정도는? 1) 무학 2) 초등졸 3) 종졸 4) 고졸 5) 대졸

문항 4: 귀하의 월 수입은? (단위: 만 원)

설문조사를 실시하여 얻은 응답 데이터를 csv 파일로 저장하고 간단한 작업을 해보자.

> setwd('c:/Rwork')

> survey<-read.csv('설문조사 데이터.csv',header=T,sep=',')

> survey

일련번호 변수.1.성별. 변수.2.나이. 변수.3.교육정도. 변수.4.월.수입.

1 1 1 21 4 100

2 2 2 22 5 100

3 3 1 33 2 200

4 4 2 33 4 120

5 5 1 28 4 70

6 6 1 21 5 100

7 7 2 39 4 190

8 8 1 32 5 220

9 9 2 44 1 170

10 10 1 55 3 310

> summary(survey)

일련번호 변수.1.성별. 변수.2.나이. 변수.3.교육정도. 변수.4.월.수입.

Min. : 1.00 Min. :1.0 Min. :21.0 Min. :1.00 Min. : 70.0

1st Qu.: 3.25 1st Qu.:1.0 1st Qu.:23.5 1st Qu.:3.25 1st Qu.:100.0

Median : 5.50 Median :1.0 Median :32.5 Median :4.00 Median :145.0

Mean : 5.50 Mean :1.4 Mean :32.8 Mean :3.70 Mean :158.0

3rd Qu.: 7.75 3rd Qu.:2.0 3rd Qu.:37.5 3rd Qu.:4.75 3rd Qu.:197.5

Max. :10.00 Max. :2.0 Max. :55.0 Max. :5.00 Max. :310.0

> colnames(survey)<-c('변수','성별','나이','교육정도','월 수입')

> survey

변수 성별 나이 교육정도 월 수입

1 1 1 21 4 100

2 2 2 22 5 100

3 3 1 33 2 200

4 4 2 33 4 120

5 5 1 28 4 70

6 6 1 21 5 100

7 7 2 39 4 190

8 8 1 32 5 220

9 9 2 44 1 170

10 10 1 55 3 310

> plot(survey$나이, survey$`월 수입`)

> par(mfrow=c(1,2))

> plot(survey$나이, survey$`월 수입`,pch=20)

> plot(survey$나이, survey$`월 수입`,pch="+")

'KNOU > 1 통계학개론' 카테고리의 다른 글

변수의 종류 (0)	2016.06.28

Posted by 마르띤

,

데이터마이너를 꿈꾸며

1장 데이터과학과 데이터마이닝

'KNOU > 2 데이터마이닝' 카테고리의 다른 글

매일 1%씩 노력할 때 실력이 2배 증가하기 까지 걸리는 시간

범주형 데이터와 연속형 데이터, 그리고 산점도

'KNOU > 1 통계학개론' 카테고리의 다른 글

링크

카테고리

최근에 올라온 글

최근에 받은 트랙백

글 보관함

티스토리툴바