산포도: 데이터의 퍼짐 정도를 이해하는 지표
통계에서 산포도(dispersion)는 데이터가 평균을 중심으로 얼마나 퍼져 있는지를 나타내는 중요한 지표입니다. 산포도는 단순히 데이터를 평균값에 대해 비교하는 것을 넘어, 데이터의 다양성, 변동성, 일관성을 이해하는 데 필수적인 정보를 제공합니다. 산포도가 클수록 데이터는 더 넓은 범위에 분포되어 있고, 산포도가 작을수록 데이터는 평균값 근처에 집중되어 있음을 의미합니다. 이번 글에서는 산포도의 개념과 그 종류에 대해 자세히 알아보고, 이를 계산하는 다양한 방법에 대해 설명해보겠습니다.
1) 산포도 일반
의의
산포도는 데이터의 분포가 얼마나 퍼져 있는지, 또는 데이터 간의 차이가 얼마나 큰지를 나타내는 지표입니다. 통계적 분석에서 산포도는 평균값만으로는 알 수 없는 데이터의 변동성을 이해하는 데 중요한 역할을 합니다. 예를 들어, 두 개의 회사가 동일한 평균 매출을 기록했더라도, 각 회사의 매출이 얼마나 변동했는지, 즉 산포도가 얼마나 큰지에 따라 경영 전략을 다르게 세울 수 있습니다.
종류
산포도는 크게 두 가지 범주로 나눌 수 있습니다. 하나는 절대적인 분포의 산포도이고, 다른 하나는 상대적인 분포의 산포도입니다. 절대적인 분포의 산포도는 실제 데이터 값들의 변동 범위를 측정하는 지표들이며, 상대적인 분포의 산포도는 데이터를 평균값에 비례하여 비교한 지표들입니다.
2) 절대적인 분포의 산포도
절대적인 분포의 산포도는 주어진 데이터 집합의 실제 범위나 분포의 정도를 측정하는 방법들입니다. 이는 데이터가 얼마나 넓게 분포하는지, 또는 평균에서 얼마나 떨어져 있는지를 평가합니다.
범위 (Range)
범위는 가장 큰 값과 가장 작은 값의 차이를 계산한 것으로, 산포도를 측정하는 가장 간단한 방법입니다. 범위는 직관적으로 데이터를 대표하는 분포의 크기를 알려주지만, 이상치(극단값)에 민감하게 반응할 수 있다는 단점이 있습니다.
범위 공식:
범위 = 최댓값 - 최솟값
예를 들어, 학생들의 시험 점수가 50점에서 100점 사이에 분포한다고 가정할 때, 범위는 50점입니다. 그러나 만약 1명 학생이 200점을 받았다면, 범위는 150점으로 크게 변화할 수 있습니다.
사분위수 범위 (Interquartile Range, IQR)
사분위수 범위는 데이터의 중간 50%가 얼마나 퍼져 있는지를 나타내는 지표로, 1사분위수(Q1)와 3사분위수(Q3)의 차이를 계산하여 산출합니다. 사분위수 범위는 이상치의 영향을 줄여서 데이터의 퍼짐 정도를 더 신뢰할 수 있게 평가할 수 있습니다.
사분위수 범위 공식:
IQR = Q3 - Q1
예를 들어, 100명의 시험 점수가 주어졌을 때, 사분위수 범위는 상위 75%와 하위 25%의 데이터를 제외한 중간 50%의 분포를 측정합니다. 이는 극단적인 값들이 결과에 미치는 영향을 최소화하는 장점이 있습니다.
평균편차 (Mean Absolute Deviation, MAD)
평균편차는 각 데이터가 평균으로부터 얼마나 떨어져 있는지에 대한 평균값을 계산한 것입니다. 각 데이터의 편차를 절댓값으로 취해 평균을 구하기 때문에, 데이터가 평균에서 얼마나 퍼져 있는지 쉽게 알 수 있습니다.
평균편차 공식:
MAD = (1/n) ∑ |xi - x̄|
여기서 xi
는 각 데이터 값이고, x̄
는 데이터의 산술평균입니다. 평균편차는 상대적인 크기보다는 절대적인 퍼짐 정도를 알려주기 때문에, 평균값에 대한 데이터의 흩어짐을 이해하는 데 유용합니다.
사분편차 (Quartile Deviation)
사분편차는 사분위수 범위의 절반으로, 데이터의 중앙값을 기준으로 데이터가 얼마나 퍼져 있는지를 측정합니다. 이는 이상치의 영향을 더 적게 받으며, 데이터를 중앙 기준으로 분석할 때 유용합니다.
사분편차 공식:
사분편차 = (Q3 - Q1) / 2
사분편차는 특히 데이터의 분포가 비대칭일 때 유용하게 쓰입니다. 사분위수 범위가 크면 사분편차도 크게 나옵니다.
분산과 표준편차 (Variance and Standard Deviation)
분산과 표준편차는 데이터 집합의 산포도를 평가하는 가장 대표적인 지표입니다. 분산은 데이터 값들이 평균으로부터 얼마나 떨어져 있는지를 제곱하여 합산한 후, 데이터의 개수로 나누어 계산합니다. 표준편차는 분산의 제곱근을 취한 값으로, 원래의 데이터 단위로 돌아가므로 해석하기 더 직관적입니다.
분산 공식:
분산 = (1/n) ∑ (xi - x̄)2
표준편차 공식:
표준편차 = √(분산)
분산과 표준편차는 데이터를 대표하는 중요한 산포도 지표로, 주어진 데이터가 얼마나 퍼져 있는지 평가할 때 가장 많이 사용됩니다. 표준편차가 크면 데이터 값들이 넓게 퍼져 있다는 뜻이고, 작으면 데이터들이 평균값 근처에 모여 있다는 뜻입니다.
3) 상대적인 분포의 산포도
상대적인 분포의 산포도는 데이터 값의 평균과 표준편차를 고려하여 상대적인 변동성을 측정하는 방법들입니다. 이는 서로 다른 데이터 집합을 비교할 때 유용합니다.
변이계수 (Coefficient of Variation, CV)
변이계수는 표준편차를 평균으로 나눈 값으로, 데이터의 변동성을 상대적인 기준으로 평가할 수 있게 해줍니다. 변이계수는 단위가 다른 데이터를 비교할 때 유용합니다. 예를 들어, 매출과 같은 금액 단위와 성적과 같은 점수 단위를 비교할 때 변이계수를 사용하여 데이터 간의 상대적인 변동성을 비교할 수 있습니다.
변이계수 공식:
CV = (σ / μ) × 100
여기서 σ
는 표준편차, μ
는 평균입니다. 변이계수는 퍼짐 정도를 상대적으로 측정할 수 있기 때문에 여러 집합 간 비교에 유리합니다.
사분위편차계수 (Coefficient of Quartile Deviation)
사분위편차계수는 사분위수 범위와 중앙값을 기준으로 상대적인 분포의 산포도를 측정하는 방법입니다. 이 지표는 데이터를 비대칭적으로 분석할 때 유용합니다.
사분위편차계수 공식:
사분위편차계수 = (Q3 - Q1) / (Q3 + Q1)
평균편차계수 (Coefficient of Mean Absolute Deviation)
평균편차계수는 평균편차를 평균값으로 나누어 상대적인 변동성을 평가하는 지표입니다. 이는 데이터가 평균으로부터 얼마나 벗어나 있는지를 상대적인 관점에서 측정할 수 있게 해줍니다.
평균편차계수 공식:
평균편차계수 = MAD / μ