3) 연속확률분포
연속확률분포는 확률변수가 연속적인 값을 가질 때 사용됩니다. 예를 들어, 사람의 키, 체중, 시간 등은 연속적으로 변할 수 있는 변수입니다.
정규분포 (Normal Distribution)
정규분포는 연속확률분포에서 가장 많이 사용되는 분포입니다. 데이터가 평균을 중심으로 대칭적인 형태를 가지며 벨 모양을 띱니다.
- 의의: 정규분포는 많은 자연현상과 사회적 현상에서 발생하며, 실생활에서 매우 자주 나타납니다. 예를 들어, 사람들의 키나 시험 성적 등이 정규분포를 따릅니다.
- 특징: 정규분포는 평균(\(\mu\))과 표준편차(\(\sigma\))로 정의됩니다. 평균은 분포의 중심을 나타내며, 표준편차는 데이터의 분포 범위를 나타냅니다. 정규분포는 대칭적이며, 68-95-99.7 법칙에 따라 데이터를 분석할 수 있습니다.
표준정규분포 (Standard Normal Distribution)
표준정규분포는 평균이 0이고 표준편차가 1인 정규분포입니다. 이를 통해 다양한 데이터를 표준화하여 계산할 수 있습니다.
- 의의: 표준정규분포는 통계적 계산을 단순화하는 데 유용하며, 데이터를 표준화하여 비교할 수 있습니다.
- 표준화: Z-점수를 계산하여 데이터를 표준화할 수 있습니다. Z-점수는 다음과 같이 계산됩니다:
Z = (X - μ) / σ
t-분포 (t-Distribution)
t-분포는 표본의 크기가 작을 때 사용되는 분포로, 표본의 평균을 추정할 때 유용합니다. 표본 크기가 작을 때 분포가 두꺼운 꼬리를 가지게 되며, 이 분포는 정규분포와 유사하지만 이상값에 더 민감합니다.
- 의의: t-분포는 작은 표본을 분석할 때 매우 중요합니다. 표본의 크기가 30개 이하일 때 주로 사용됩니다.
- 특징: 자유도에 따라 모양이 달라지며, 자유도가 커질수록 정규분포에 가까워집니다.
F-분포 (F-Distribution)
F-분포는 두 개 이상의 집단 간 분산 차이를 비교하는 데 사용됩니다. 주로 분산분석(ANOVA)에서 사용되며, 두 그룹 간 분산 차이를 검정하는 데 사용됩니다.
- 의의: F-분포는 두 개 이상의 집단 간 분산 비율을 비교하는 데 사용됩니다.
- 특징: F-분포는 항상 양의 값을 가지며, 자유도에 따라 그 모양이 달라집니다. 분산이 동일하다는 가설을 검정하는 데 유용합니다.
카이제곱분포 (Chi-Square Distribution)
카이제곱분포는 범주형 데이터를 분석하는 데 사용되는 분포로, 적합도 검정이나 독립성 검정에서 사용됩니다.
- 의의: 카이제곱분포는 특정 변수들 간의 관계를 분석하거나, 관측된 데이터가 예상된 값과 얼마나 일치하는지를 검정할 때 사용됩니다.
- 특징: 카이제곱분포는 항상 비음수 값을 가지며, 자유도에 따라 분포의 모양이 달라집니다. 분포는 비대칭적입니다.
4) 표본분포와 중심극한정리
표본분포의 개념
표본분포는 모집단에서 추출한 여러 표본의 통계량이 가질 수 있는 분포입니다. 표본의 크기와 모집단의 특성에 따라 분포는 다르게 나타날 수 있습니다.
중심극한정리 (Central Limit Theorem)
중심극한정리는 표본 크기가 충분히 클 경우, 표본평균의 분포가 정규분포에 근사한다고 설명하는 이론입니다. 이는 통계분석에서 매우 중요한 이론으로, 비정규분포를 따르는 데이터라도 표본 평균은 정규분포에 가까워진다는 것을 의미합니다.
- 의의: 중심극한정리는 표본 크기가 커질수록 표본평균이 모집단의 평균에 근접하며, 정규분포를 따르게 됩니다.
- 특징: 표본 크기가 클수록 표본평균의 분포는 모집단의 평균에 근접하며, 분산은 \(\frac{\sigma^2}{n}\)으로 감소합니다. 여기서 \(\sigma^2\)는 모집단의 분산, \(n\)은 표본 크기입니다.
5) 체비세프 부등식
체비세프 부등식은 확률분포가 무엇이든 간에, 주어진 확률변수가 평균으로부터 일정 거리 이상 떨어질 확률에 대한 상한선을 제공합니다. 이 부등식은 모든 확률분포에 적용할 수 있습니다.
- 의의: 체비세프 부등식은 분포에 관계없이 확률변수가 평균에서 벗어날 확률을 예측하는 데 사용됩니다.
- 특징: 예를 들어, 평균에서 2배 표준편차 이상 벗어날 확률은 25% 미만이 됩니다.