1. 하나의 변수를 그래프로 표현하기
Numeric Variables
[Histogram]
PROC GCHART; VBAR numericvariable/type=PCT ;
VBAR = 세로형 그래프
PCT = 절대값이 아닌 퍼센트로 표시
Categorical Variables
[Bar Chart]
PROC GCHART; VBAR categoricalVariable / discrete type=PCT;
2. 하나의 변수를 요약하기
(1) 무엇을 볼 것인가?
Center - spread - shape
1) center : average - median - mode
2) spread : 표준편차, min, max, range
3) shape
- symmetry or skewness
: skewed-left distribution 오른쪽으로 치우침 eg) 나이들수록 사망자수 늘어난다
Skewded-right distribution 왼쪽으로 치우치고, 오른쪽으로 갈수록 롱테일
- Peakness or modality
: mode가 몇 개인가
(2) 어떻게 볼 것인가?
1) Numeric Variables
[Histogram]
PROC UNIVARIATE; VAR numericvariable ;
PROC UNIVARIATE문은 범주형 변수에는 쓸 수 없다. 해석이 안 됨.
2) Categorical Variables
[Bar Chart]
PROC FREQ;
3. 두 변수간의 관계 그래프로 표현하기
<x변수> ------> <y변수>
1) <숫자형> ------> <숫자형> : 산점도
PROC UNIVARIATE; VAR explanaryVariable responsevariable;
PROC GPLOT; PLOT explanaryVariable*responsevariable;
2) <범주형> ------> <숫자형> : Bar Chart
PROC GCHART; VAR categoricalexplanaryVariable /discrete type=mean SUMVAR=numericresponsevariable;
3) <범주형> ------> <범주형> : Bar Chart
PROC GCHART; VBAR explanaryVariable /discrete type=mean SUMVAR=categoricalresponsevariable;
4) <숫자형> ------> <범주형> : Bar Chart
Bin/collapse해서 그룹으로 만든다
예를 들어 10-19세를 10대 혹은 category=15(median)로 만든다
그 다음엔 3번과 동일