출처 : https://d2.naver.com/helloworld/1179024
- Infrastructure Developer: 빅데이터 인프라 개발/운영
- Data Engineer: 데이터 파이프라인 개발/운영
- Data Scientist
- Data Analyst: 인사이트 발굴
- Statistician: 통계적 검증
- Applied Machine Learning Engineer: 머신 러닝 응용 개발/운영
데이터를 테이블로 가공한다는 말의 의미를, 앞서 예를 들었던 텍스트 데이터의 경우로 설명하면 다음과 같다.
- CSV, TSV는 열 개수가 고정되어 있어야 테이블 데이터이므로 되도록 열 개수를 고정한다.
- XML 또는 JSON은 flat할수록 테이블 데이터에 가까우므로 되도록 flat하게 가공한다.
- 테이블의 각 cell 안에는 정수, 실수 등 주로 Primitive 타입의 데이터가 들어가는 것이 좋다.
- Primitive 타입은 데이터에 맞는 가장 작은 타입으로 설정하는 것이 좋다.
Primitive 타입에는 담을 수 있는 정보의 양에 차이가 있다. Boolean < Integer < Double < String 순서로 담을 수 있는 정보가 커진다. 각 데이터의 열(column)에 담기는 데이터에 맞는 가장 작은 타입을 사용하는 것이 성능과 분석에 모두 이롭다.
Tiday 데이터의 구성
테이블 데이터가 깔끔하다는 것은 다음과 같은 특성을 가지고 있음을 의미한다.
- 각 행이 한 개의 관측치(observation)이다.
- 각 열 제목이 한 개의 변수(variable)이다.
- 변수는 더 쪼개거나 묶기 어려운 하나의 의미를 가진다.