Data analysis 28

다중회귀 Multiple Regression (SAS)

​​​​1. 다중공선성을 피하기 위한 평균 중심화 방법 - 설명변수가 0을 중심으로 분포 되게끔, proc means 문으로 구한 평균을 각 값에서 빼준다 Urban.rate_c = urban.rate - 평균값 of urban.rate - 예시 PROC GLM; Model NDSymptoms=MajorDepLife urban.rate_c / solution ; Run; (해석) estimate가 MajorDepLife=1.342 urban.rate_c=0.036 --> MajorDepLife가 설명변수이고 urban.rate_c는 potential confounder - 평균 중심화 관련 보다 자세한 설명은 하단 참조 http://www.statedu.com/term/105360 - ​​Confiden..

Data analysis 2016.04.09

Basic Regression Model (SAS)

​​1. Basic Regression Model - x : explanatory variable -> y : ​quantitative response variable - 프로그램 ​PROC GLM ; model quantitativeresponse = explanatory ; Ex) PROC GLM ; model internet.use.rate = urban.rate ; - 해석하기 (1) p-value < .0001 Null hypothesis 기각, 인터넷 사용률과 도시화률은 매우 관련있다 (2) parameter의 estimate Intercept + estimate*urban.rate -4.9+0.72*utban.rate ​​2. Logistic Regression Model - x : expl..

Data analysis 2016.04.09

Statistical Test : ANOVA, x2, r

​​1. P-value - 1종 오류 확률 : the number of times out of 100 we would be wrong in rejecting the null hypothesis - 통계적 추정에 대한 설명은 잘 설명된 아래 글 참조 http://m.blog.naver.com/hyear1004/220093860974 ​​2. Statistical Test - Bivariate statistical tool 1) ANOVA (F-Test) : analysis of Variance 2) X2 : Chi-Square test of indepence 3) r : correlation coefficience - x와 Y의 변수에 따라 ​ ​​3. ANOVA F-test - Are the differ..

Data analysis 2016.03.19

Data visualisation by SAS

​​1. 하나의 변수를 그래프로 표현하기 ​​Numeric Variables [Histogram] PROC GCHART; VBAR numericvariable/type=PCT ; ​​​​​​​VBAR = 세로형 그래프 PCT = 절대값이 아닌 퍼센트로 표시 ​Categorical Variables ​[Bar Chart] PROC GCHART; VBAR categoricalVariable / discrete type=PCT; ​​2. 하나의 변수를 요약하기 (1) 무엇을 볼 것인가? Center - spread - shape 1) center : average - median - mode 2) spread : 표준편차, min, max, range 3) shape - symmetry or skewness ..

Data analysis 2016.03.12

쉬어가기) 데이터 사이언티스트 의 기본기?!

​데이터 사이언티스트가 되기 위해 필요한 역량은. - 권재명 애플 시니어 데이터 사이언티스트 기본이 되는 영어 외에 여섯 가지를 꼽을 수 있다. 첫째는 탄탄한 통계학 실력이다. 통계학부 저학년 수준의 일반통계, 고학년 수준의 이론통계 및 선형모형(회귀·분산분석 포함) 등은 필수적이고, 범주형 데이터 분석을 위한 일반화 선형분석도 알아두면 좋다. 둘째는 데이터 분석을 위한 컴퓨팅 역량이다. 통계분석을 위해 R은 잘 다룰수록 ‘숨 쉬듯이’ 좋고, 데이터 준비와 처리를 위해 파이썬(Python)도 잘 다루면 좋다. 또 시스템을 다 알 필요까진 없지만, SW엔지니어링 역량은 많을수록 빠르게 데이터를 얻을 수 있다. 셋째는 현실적인 문제를 통계로 풀어내는 능력이다. 이 분야에 대한 많은 독서가 도움이 될 것이다...

Data analysis 2016.02.01