'시각화' 태그의 글 목록

'시각화'에 해당되는 글 2건

2024.01.04 [python] 박스 플롯 그리기
2017.02.10 4장 - 크로스 분석: 어떤 속성들의 고객들이 떠날까?

[python] 박스 플롯 그리기

Python, R 분석과 프로그래밍/데이터 시각화 2024. 1. 4. 08:55

(1) boxplot은 왜 쓸까?

박스 플롯(Box Plot)은 통계적 데이터의 요약된 시각화 도구로, 데이터의 중앙 경향, 분포, 이상치를 효과적으로 보여주는 차트입니다. 다른 이름으로는 상자 수염 그림(Box-and-Whisker Plot)이라고도 불립니다. 박스 플롯은 다음과 같은 주요 구성 요소로 이루어져 있습니다:

1. 상자 (Box):

- 상자의 하단 변은 데이터의 1사분위수(Q1)를 나타냅니다.

- 상자의 상단 변은 데이터의 3사분위수(Q3)를 나타냅니다.

- 상자의 중앙에 수평선은 데이터의 중앙값(median)을 나타냅니다.

2. 수염 (Whiskers):

- 수염은 데이터의 최솟값과 최댓값을 나타냅니다. 일반적으로 1.5배의 사분위 범위(IQR)를 벗어나는 값은 이상치로 간주됩니다.

3. 이상치 (Outliers):

- 수염 부분을 벗어나는 점은 이상치로 간주됩니다.

박스 플롯은 데이터의 분포를 쉽게 이해하고, 여러 그룹 간의 비교를 통해 통계적 특성을 시각적으로 비교할 수 있는 강력한 도구입니다. 특히, 중앙값과 사분위수를 통해 데이터의 중심 경향과 분포를 한눈에 파악할 수 있어 다양한 분야에서 널리 사용되고 있습니다.

(2) boxplot 한 개를 그려보자

# 라이브러리 불러오기
import matplotlib.pyplot as plt
import numpy as np

# 예제 데이터 생성
np.random.seed(10) # 난수 생성 시드 설정
data = np.random.normal(0, 1, 100) # 평균이 0이고 표준 편차가 1인 정규 분포에서 100개의 데이터 생성

# 그래프 사이즈 조정
fig = plt.figure(figsize =(10, 7))

# 박스 플롯 그리기
plt.boxplot(data)

# 그래프 표시
plt.show()

[결과값]

위 코드를 실행하면 평균이 0이고 표준 편차가 1인 정규 분포에서 생성된 데이터에 대한 박스 플롯이 그려진 그래프 창이 표시됩니다.

(3) boxplot 여러 개를 그려보자

# 라이브러리 불러오기
import matplotlib.pyplot as plt
import numpy as np

# 예제 데이터 생성
np.random.seed(10)

data_1 = np.random.normal(10, 5, 100)
data_2 = np.random.normal(9, 10, 100)
data_3 = np.random.normal(8, 15, 100)
data_4 = np.random.normal(7, 20, 100)
data = [data_1, data_2, data_3, data_4]

# 그래프 사이즈 및 간격 조정
fig = plt.figure(figsize =(10, 7))
ax = fig.add_axes([0, 0, 1, 1])

# 박스 플롯 그리기
bp = ax.boxplot(data)

# 그래프 표시
plt.show()

[결과값]

네 개의 상자 플롯이 그려져 있으며, 각각의 상자 플롯은 다른 그룹에 해당합니다. 각 그룹의 중심 경향과 분포를 나타내기 위해 상자의 위치와 크기가 다릅니다. 그래프 상단의 표시는 각 그룹의 중앙값(median)을 나타냅니다. 수염은 각 그룹의 데이터의 전체 분포를 나타냅니다. 이상치가 몇몇 그룹에 존재합니다.

이번 포스팅이 파이썬 공부에 작은 도움이 되었기를 바랍니다.

'Python, R 분석과 프로그래밍 > 데이터 시각화' 카테고리의 다른 글

[python] gapminder 데이터 셋으로 여러가지 그래프 그리기 (2)	2024.01.06
[python] 버블차트 그리기 (2)	2024.01.05

Posted by 마르띤

4장 - 크로스 분석: 어떤 속성들의 고객들이 떠날까?

Python, R 분석과 프로그래밍/비지니스 활용 사례로 배우는 데이터 분석 : R 2017. 2. 10. 19:24

1. csv 파일 읽어 들이기

> setwd("C:/파일/temp/r_temp")

> dau<-read.csv('section4-dau.csv',header=T,stringsAsFactors = F)

> head(dau)

log_date app_name user_id

1 2013-08-01 game-01 33754

2 2013-08-01 game-01 28598

3 2013-08-01 game-01 30306

4 2013-08-01 game-01 117

5 2013-08-01 game-01 6605

6 2013-08-01 game-01 346

> user.info<-read.csv('section4-user_info.csv',header=T,stringsAsFactors = F)

> head(user.info)

i nstall_date app_name user_id gender generation device_type

1 2013-04-15 game-01 1 M 40 iOS

2 2013-04-15 game-01 2 M 10 Android

3 2013-04-15 game-01 3 F 40 iOS

4 2013-04-15 game-01 4 M 10 Android

5 2013-04-15 game-01 5 M 40 iOS

6 2013-04-15 game-01 6 M 40 iOS

2. DAU에 user.info 결합하기

> dau.user.info<-merge(dau,user.info,by=c('user_id','app_name'))

> head(dau.user.info)

user_id app_name log_date install_date gender generation device_type

1 1 game-01 2013-09-06 2013-04-15 M 40 iOS

2 1 game-01 2013-09-05 2013-04-15 M 40 iOS

3 1 game-01 2013-09-28 2013-04-15 M 40 iOS

4 1 game-01 2013-09-12 2013-04-15 M 40 iOS

5 1 game-01 2013-09-11 2013-04-15 M 40 iOS

6 1 game-01 2013-09-08 2013-04-15 M 40 iOS

3. 월 항목 추가

> dau.user.info$month<-substr(dau.user.info$log_date,1,7)

> head(dau.user.info)

user_id app_name log_date install_date gender generation device_type month

1 1 game-01 2013-09-06 2013-04-15 M 40 iOS 2013-09

2 1 game-01 2013-09-05 2013-04-15 M 40 iOS 2013-09

3 1 game-01 2013-09-28 2013-04-15 M 40 iOS 2013-09

4 1 game-01 2013-09-12 2013-04-15 M 40 iOS 2013-09

5 1 game-01 2013-09-11 2013-04-15 M 40 iOS 2013-09

6 1 game-01 2013-09-08 2013-04-15 M 40 iOS 2013-09

> colnames(dau.user.info)[8]<-'log_month'

> head(dau.user.info)

user_id app_name log_date install_date gender generation device_type log_month

1 1 game-01 2013-09-06 2013-04-15 M 40 iOS 2013-09

2 1 game-01 2013-09-05 2013-04-15 M 40 iOS 2013-09

3 1 game-01 2013-09-28 2013-04-15 M 40 iOS 2013-09

4 1 game-01 2013-09-12 2013-04-15 M 40 iOS 2013-09

5 1 game-01 2013-09-11 2013-04-15 M 40 iOS 2013-09

6 1 game-01 2013-09-08 2013-04-15 M 40 iOS 2013-09

4. 성별로 집계

> table(dau.user.info[,c('log_month','gender')])

gender

log_month F M

2013-08 47343 46842

2013-09 38027 38148

> table(dau.user.info[,c('gender','log_month')])

log_month

gender 2013-08 2013-09

F 47343 38027

M 46842 38148

-> 전체적인 수치는 떨어졌지만 남녀간의 구성비율은 변화가 없으므로, 성별과 게임이용율 간 연관관계가 크지 않음.

5. 연령별로 집계

> table(dau.user.info[,c('log_month','generation')])

generation

log_month 10 20 30 40 50

2013-08 18785 33671 28072 8828 4829

2013-09 15391 27229 22226 7494 3835

> table(dau.user.info[,c('generation','log_month')])

log_month

generation 2013-08 2013-09

10 18785 15391

20 33671 27229

30 28072 22226

40 8828 7494

50 4829 3835

-> 전체적인 수치는 떨어졌지만 연령간의 구성비율은 변화가 없으므로, 연령과 게임이용율 간 연관관계가 크지 않음.

6. 세그먼트 분석(성별과 연령대를 조합해서 집계)

> library(reshape2)

> dcast(dau.user.info,log_month~gender+generation,value.var='user_id',length)

log_month F_10 F_20 F_30 F_40 F_50 M_10 M_20 M_30 M_40 M_50

1 2013-08 9091 17181 14217 4597 2257 9694 16490 13855 4231 2572

2 2013-09 7316 13616 11458 3856 1781 8075 13613 10768 3638 2054

-> 전체 이용율 하락에 영햐을 끼친 세그먼트는 찾아내지 못함

7. 세그먼트 분석(단말기별로 집계)

> head(dau.user.info)

user_id app_name log_date install_date gender generation device_type log_month

1 1 game-01 2013-09-06 2013-04-15 M 40 iOS 2013-09

2 1 game-01 2013-09-05 2013-04-15 M 40 iOS 2013-09

3 1 game-01 2013-09-28 2013-04-15 M 40 iOS 2013-09

4 1 game-01 2013-09-12 2013-04-15 M 40 iOS 2013-09

5 1 game-01 2013-09-11 2013-04-15 M 40 iOS 2013-09

6 1 game-01 2013-09-08 2013-04-15 M 40 iOS 2013-09

> table(dau.user.info[,c('log_month','device_type')])

device_type

log_month Android iOS

2013-08 46974 47211

2013-09 29647 46528

-> ios의 변화율은 없는 반면, android의 변화율이 큼을 알 수 있다.

8. 세그먼트 분석 결과 시각화하기

#날짜별로 단말기별 유저수 산출하기

> library(plyr)

> dau.user.info.device.summary<-ddply(dau.user.info,

.(log_date,device_type),

summarize,

dau=length(user_id))

> head(dau.user.info.device.summary)

log_date device_type dau

1 2013-08-01 Android 1784

2 2013-08-01 iOS 1805

3 2013-08-02 Android 1386

4 2013-08-02 iOS 1451

5 2013-08-03 Android 1295

6 2013-08-03 iOS 1351

#날짜별 데이터 형식으로 변환하기

> str(dau.user.info.device.summary)

'data.frame': 122 obs. of 3 variables:

$ log_date : chr "2013-08-01" "2013-08-01" "2013-08-02" "2013-08-02" ...

$ device_type: chr "Android" "iOS" "Android" "iOS" ...

$ dau : int 1784 1805 1386 1451 1295 1351 1283 1314 2002 2038 ...

> dau.user.info.device.summary$log_date<-as.Date(dau.user.info.device.summary$log_date)

> str(dau.user.info.device.summary)

'data.frame': 122 obs. of 3 variables:

$ log_date : Date, format: "2013-08-01" "2013-08-01" "2013-08-02" ...

$ device_type: chr "Android" "iOS" "Android" "iOS" ...

$ dau : int 1784 1805 1386 1451 1295 1351 1283 1314 2002 2038 ...

9. 시계열 트렌드 그래프 그리기

> library(ggplot2)

> library(scales)

> limits<-c(0,max(dau.user.info.device.summary$dau))

> ggplot(dau.user.info.device.summary,aes(x=log_date,y=dau,col=device_type,lty=device_type,shape=device_type))+ geom_line(lwd=1)+geom_point(size=4)+scale_y_continuous(label=comma,limits = limits)

-> 9월부터 안드로이드 유저가 빠르게 감소함을 알 수 있다. 따라서 안드로이드 시스템을 점검해야 한다는 결론을 얻을 수 있다.

#ggplot 그래프 구조 이해하기

> library(ggplot2)

> library(scales)

> head(dau.user.info.device.summary)

log_date device_type dau

1 2013-08-01 Android 1784

2 2013-08-01 iOS 1805

3 2013-08-02 Android 1386

4 2013-08-02 iOS 1451

5 2013-08-03 Android 1295

6 2013-08-03 iOS 1351

> ggplot(dau.user.info.device.summary)

> ggplot(dau.user.info.device.summary,aes(x=log_date,y=dau,col=device_type,lty=device_type,shape=device_type))

> ggplot(dau.user.info.device.summary,aes(x=log_date,y=dau,col=device_type,lty=device_type,shape=device_type))+geom_line(lwd=1)

> ggplot(dau.user.info.device.summary,aes(x=log_date,y=dau,col=device_type,lty=device_type,shape=device_type))+geom_line(lwd=1)+geom_point(size=4)

> ggplot(dau.user.info.device.summary,aes(x=log_date,y=dau,col=device_type,lty=device_type,shape=device_type))+geom_line(lwd=1)+geom_point(size=4)+scale_y_continuous(label=comma)

> limits<-c(0,max(dau.user.info.device.summary$dau))

> max(dau.user.info.device.summary$dau)

[1] 2133

> ggplot(dau.user.info.device.summary,aes(x=log_date,y=dau,col=device_type,lty=device_type,shape=device_type))+geom_line(lwd=1)+geom_point(size=4)+scale_y_continuous(label=comma,limits = limits)

출처: 비지니스 활용 사레로 배우는 데이터 분석: R (사카마키 류지, 사토 요헤이 지음)

'Python, R 분석과 프로그래밍 > 비지니스 활용 사례로 배우는 데이터 분석 : R' 카테고리의 다른 글

6장 - 중회귀분석 : 집객효과가 가장 큰 광고의 조합은 무엇인가? (2)	2017.02.15
5장 - A/B 테스트 : 어느 쪽의 배너광고가 반응이 더 좋은가? (0)	2017.02.13

Posted by 마르띤

이전 1 다음

데이터마이너를 꿈꾸며

'시각화'에 해당되는 글 2건

[python] 박스 플롯 그리기

(1) boxplot은 왜 쓸까?

(2) boxplot 한 개를 그려보자

(3) boxplot 여러 개를 그려보자

'Python, R 분석과 프로그래밍 > 데이터 시각화' 카테고리의 다른 글

4장 - 크로스 분석: 어떤 속성들의 고객들이 떠날까?

'Python, R 분석과 프로그래밍 > 비지니스 활용 사례로 배우는 데이터 분석 : R' 카테고리의 다른 글

링크

카테고리

최근에 올라온 글

최근에 받은 트랙백

글 보관함

티스토리툴바