[펌]데이터 품질에 관한 5개 체크포인트

Data analysis

[펌]데이터 품질에 관한 5개 체크포인트

keepgroovin' 2019. 9. 12. 17:17

출처 : https://d2.naver.com/helloworld/1179024

불러오는 중입니다...

Infrastructure Developer: 빅데이터 인프라 개발/운영
Data Engineer: 데이터 파이프라인 개발/운영
Data Scientist
- Data Analyst: 인사이트 발굴
- Statistician: 통계적 검증
- Applied Machine Learning Engineer: 머신 러닝 응용 개발/운영

데이터를 테이블로 가공한다는 말의 의미를, 앞서 예를 들었던 텍스트 데이터의 경우로 설명하면 다음과 같다.

CSV, TSV는 열 개수가 고정되어 있어야 테이블 데이터이므로 되도록 열 개수를 고정한다.
XML 또는 JSON은 flat할수록 테이블 데이터에 가까우므로 되도록 flat하게 가공한다.
테이블의 각 cell 안에는 정수, 실수 등 주로 Primitive 타입의 데이터가 들어가는 것이 좋다.
Primitive 타입은 데이터에 맞는 가장 작은 타입으로 설정하는 것이 좋다.

Primitive 타입에는 담을 수 있는 정보의 양에 차이가 있다. Boolean < Integer < Double < String 순서로 담을 수 있는 정보가 커진다. 각 데이터의 열(column)에 담기는 데이터에 맞는 가장 작은 타입을 사용하는 것이 성능과 분석에 모두 이롭다.

Tiday 데이터의 구성

테이블 데이터가 깔끔하다는 것은 다음과 같은 특성을 가지고 있음을 의미한다.

각 행이 한 개의 관측치(observation)이다.
각 열 제목이 한 개의 변수(variable)이다.
변수는 더 쪼개거나 묶기 어려운 하나의 의미를 가진다.

현재글[펌]데이터 품질에 관한 5개 체크포인트

Nulla in Mundo Pax Sincera

투자,데이터분석,음악

Veuve Clicquot, JVRF, 부산 부산여행 스파랜드, 오블완, 우리같이, 자기유능감, 자기중요감, Being Boring, 여행, 정기용, 왓슨 Ibm, 이작 펠먼, 티스토리챌린지, 자기호감, 얄개들, max/msp, 이작 펠만, 기술, 말하는건축가, 왓슨 인간의 사고를 시작하다,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Nulla in Mundo Pax Sincera

[펌]데이터 품질에 관한 5개 체크포인트

'Data analysis'의 다른글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

[펌]데이터 품질에 관한 5개 체크포인트

'Data analysis'의 다른글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역