Data analysis

[펌]데이터 품질에 관한 5개 체크포인트

keepgroovin' 2019. 9. 12. 17:17

출처 : https://d2.naver.com/helloworld/1179024

불러오는 중입니다...
  • Infrastructure Developer: 빅데이터 인프라 개발/운영
  • Data Engineer: 데이터 파이프라인 개발/운영
  • Data Scientist
    • Data Analyst: 인사이트 발굴
    • Statistician: 통계적 검증
    • Applied Machine Learning Engineer: 머신 러닝 응용 개발/운영

데이터를 테이블로 가공한다는 말의 의미를, 앞서 예를 들었던 텍스트 데이터의 경우로 설명하면 다음과 같다.

  • CSV, TSV는 열 개수가 고정되어 있어야 테이블 데이터이므로 되도록 열 개수를 고정한다.
  • XML 또는 JSON은 flat할수록 테이블 데이터에 가까우므로 되도록 flat하게 가공한다.
  • 테이블의 각 cell 안에는 정수, 실수 등 주로 Primitive 타입의 데이터가 들어가는 것이 좋다.
  • Primitive 타입은 데이터에 맞는 가장 작은 타입으로 설정하는 것이 좋다.

Primitive 타입에는 담을 수 있는 정보의 양에 차이가 있다. Boolean < Integer < Double < String 순서로 담을 수 있는 정보가 커진다. 각 데이터의 열(column)에 담기는 데이터에 맞는 가장 작은 타입을 사용하는 것이 성능과 분석에 모두 이롭다.

Tiday 데이터의 구성

테이블 데이터가 깔끔하다는 것은 다음과 같은 특성을 가지고 있음을 의미한다.

  • 각 행이 한 개의 관측치(observation)이다.
  • 각 열 제목이 한 개의 변수(variable)이다.
  • 변수는 더 쪼개거나 묶기 어려운 하나의 의미를 가진다.