Data analysis

Data visualisation by SAS

keepgroovin' 2016. 3. 12. 18:47

1. 하나의 변수를 그래프로 표현하기

​Numeric Variables
[Histogram]
PROC GCHART
; VBAR numericvariable/type=PCT ;

​​​​VBAR = 세로형 그래프
PCT = 절대값이 아닌 퍼센트로 표시


Categorical Variables
[Bar Chart]
PROC GCHART
; VBAR categoricalVariable / discrete type=PCT;



2. 하나의 변수를 요약하기

(1) 무엇을 볼 것인가?

Center - spread - shape

1) center : average - median - mode

2) spread : 표준편차, min, max, range

3) shape

- symmetry or skewness
: skewed-left distribution 오른쪽으로 치우침 eg) 나이들수록 사망자수 늘어난다
Skewded-right distribution 왼쪽으로 치우치고, 오른쪽으로 갈수록 롱테일

- Peakness or modality
: mode가 몇 개인가

(2) 어떻게 볼 것인가?

​​1) Numeric Variables
[Histogram]
PROC UNIVARIATE; VAR numericvariable ;

​​​​​​​ ​PROC UNIVARIATE문은 범주형 변수에는 쓸 수 없다. 해석이 안 됨.

​2) Categorical Variables
​[Bar Chart]
PROC FREQ;



3. 두 변수간의 관계 그래프로 표현하기

​​<x변수> ------> <y변수>

1) ​​<숫자형> ------> <숫자형> : 산점도

PROC UNIVARIATE; VAR explanaryVariable responsevariable;
PROC GPLOT; PLOT explanaryVariable*responsevariable;

2) ​​<범주형> ------> <숫자형> : Bar Chart

PROC GCHART; VAR categoricalexplanaryVariable /discrete type=mean SUMVAR=numericresponsevariable;

3) ​​<범주형> ------> <범주형> : Bar Chart

PROC GCHART; VBAR explanaryVariable /discrete type=mean SUMVAR=categoricalresponsevariable;

4) ​​<숫자형> ------> <범주형> : Bar Chart

Bin/collapse해서 그룹으로 만든다
예를 들어 10-19세를 10대 혹은 category=15(median)로 만든다
그 다음엔 3번과 동일