데이터 분석을 위해서는 데이터의 종류를 파악하는 것이 중요합니다. 데이터의 종류에 따라 적용할수 있는 분석 방법이 달라지기 때문입니다.
데이터는 크게 두 가지 유형으로 분류할수 있습니다.
1. 범주형 데이터 (Categorical Data)
2. 수치형 자료 (Numerical Data)
1. 범주형 데이터 (Categorical Data)
카테고리 데이터는 이름이나 등급으로 구분되는 데이터 입니다. 수치적인 계산보다 분류 하는데 적합합니다.
이 범주형 데이터(Categorical Data) 역시 크게 두 가지 유형으로 분류할수 있습니다.
범주형 데이터 (Categorical Data)
- 명목형 데이터 (Nominal Data)
- 순서형 데이터 (Ordinal Data)
명목형 데이터(Nominal Data)는 고유의 순서가 없는 구분되는 데이터를 말합니다.
예를 들면:
- 색상 (Red, Blue, Green ...)
- 동물 (Dog, Cat, Bird, ....)
- 혈액형 (A, B, AB, O)
- 혼인상태 (Single, Married, Divorced)
- 대중교통 (버스, 지하철, 기차, 페리...)
순서형 데이터(Ordinal Data)는 순서가 있는 카테고리를 말하지만, 밸류/ 항목 간의 차이는 명확하게 측정되지 않는 단지 사회적으로 약속된 순서가 있는 항목들입니다.
예를들면:
- 고객만족도 평가 (매우 만족, 만족, 보통, 불만족, 매우 불만족)
- 학점 (A, B, C, D, E, F)
- 티셔츠 사이즈 (Small, Medium, Large, Extra Large)
2. 수치형 데이터 (Numerical Data)
수치형 데이터(Numerical Data)는 관측된 값이 수치로 표현되는 데이터 입니다. 수치적인 계산에 적합합니다. 정보를 숫자 형태로 표현하며 수학적으로 의미있게 나열하고, 분석할수 있습니다.
관측되는 값의 성질에 따라 다시 크게 두 가지 유형으로 분류할수 있습니다.
수치형 데이터 (Numerical Data)
- 연속형 데이터 (Continuous Data)
- 이산형 데이터 (Discrete Data)
이산형 데이터(Discrete Data)는 이산적으로 값을 갖는 데이터로, 통계적으로 셀 수 있고 개별화되었으며 나눌수 없는 수치 데이터를 말합니다. 수치적인 의미를 갖고 있지만 소수점의 형태로는 표현되지 않고, 구체적이고 고정된 specific & fixed data values를 갖습니다. Data Analysts나 Statisticians는 막대 그래프, 라인 차트, 히스토그램 또는 파이 차트를 사용하여 이산형 데이터를 시각화 합니다.
* Discrete: individually separate and distinct
예를들면:
- 학급별 학생수 (1반-25명, 2반-23명, 3반-24명, ...)
- 신발 사이즈 (230mm, 235mm, ...)
- 가족 구성원 수 (1명, 2명, 3명, ...)
- The number of unique views on your ad
- The number of landing page visitors who click your CTA today
- The number of contacts who opened your latest promo email
연속형 데이터(Continuous Data)는 관측되는 값이 연속적인 데이터를 말합니다. 이산형 데이터와 완전히 반대되는 것으로, 이산 데이터가 단순 정수를 다룬다면, 연속 데이터는 측정(measuring)에 사용됩니다. 연속형 데이터는 데이터 포인트 A지점과 B지점, 그리고 정의된 두 지점 사이의 광대한 사이역시 다루는 것으로, 이론적으로는 무한히 분해될수 있는 데이터 입니다. 기본적으로 연속형 데이터는 어떤 값이든 가질수 있습니다. 고정된 값으로 제한되지 않으며, 시간이 지남에 따라 변동될 수도 있는 값입니다.
연속형 데이터는 일반적으로 선 그래프를 사용하여 표시됩니다.
예를들면:
- 학생들의 키(e.g., 165.5 cm, 180.3 cm)
- 온도 (e.g., 25.6°C, 37.2°C)
- 시간 (e.g., 10.30 am, 3:45 pm)
- Average time on a landing page in milliseconds
- The rise and fall of open rates in the last quarter
- How frequently did social media engagement rise above a specified threshold this week
하지만 중요한점은 우리가 수집한 데이터를 보는 관점입니다.
내가 가진 데이터를 어떻게 분석하느냐에 따라서 데이터의 종류는 달라질수 있습니다.
발 사이즈를 예로 들면,
모든 인류의 발 사이즈는 어쩌면 지문처럼 전부다 다를지도 모릅니다. 인류의 발 사이즈만 예로들면, 이것은 연속형 데이터로 볼수 있습니다.
하지만, 230mm~250mm의 사람들의 수를 센다면 이산형 데이터가 될수 있습니다.
아동용, 성인용, 특수제작용 등의 구분으로 신발 사이즈로 데이터를 분석한다면, 명목형 데이터가 될수도 있고,
230mm, 235mm, 240mm, ... 이렇게 분석하면 순서형 데이터가 될수도 있습니다.
이처럼 수집된 데이터를 내가 원하는 목적에 맞게 분석할줄 알고, 이것을 옳은 방법으로 시각화 하는 것이 가장 중요하다고 할수 있습니다!