1. Basic Regression Model
- x : explanatory variable -> y : quantitative response variable
- 프로그램
PROC GLM ; model quantitativeresponse = explanatory ;
Ex) PROC GLM ; model internet.use.rate = urban.rate ;
- 해석하기
(1) p-value < .0001
Null hypothesis 기각, 인터넷 사용률과 도시화률은 매우 관련있다
(2) parameter의 estimate
Intercept + estimate*urban.rate
-4.9+0.72*utban.rate
2. Logistic Regression Model
- x : explanatory variable -> y : categorical response variable
- 프로그램
PROC GLM ; model categocialresponse = explanatory /solution ;
Ex) Major Depression (binary categocial explanatory variable, 0 or 1) --> Nicotine Defendence Symptoms (quantitative response variable)
PROC GLM; model NDSymptoms = major mdeplife / solution;
- If a categorical variable has more than 2 levels, you must create dummy variables for your analysis.
3. Linear Regression Assumption
1. Normality : residuals are normally distributed.
2. Linearity : Association between 설명변수 and 반응변수 are linear
3. Homoscedasticity 등분산성 : the variability in the response variable is the same at all levels of the explanatory variable.
4. Independence : obsevations are not correlated with each other.
독립성이 깨지면 transforming a variable로도 해결할 수 없음 -> 다른 모델 써야
5. Multicollinearity 다중공선성 : Explanatory variables are highly correlated with each other.
* 회귀 분석에서 설명 변수 중에 서로 상관이 높은 것이 포함되어 있을 때는 분산·공분산 행렬의 행렬식이 0에 가까운 값이 되어 회귀 계수의 추정 정밀도가 매우 나빠지는 일이 발생하는데, 이러한 현상을 다중 공선성이라 한다
- Pearsoncorrelation이 높냐 낮냐
- Sign
(1) highly associated Explanatory variable that not significant
(2) negarive regression coefficient that sould be positive
(3) taking out an explanatory variable dramatically changes results
- 해결
(1) 하나만 선택한다
(2) 제거하거나 합친다
(3) joint hypothesis test
6. Outlier