※ 학습자료 정리한 내용입니다.
- 공식을 말로도 풀 수 있어야 함
- 어떤 경우에 어떤 분포를 사용해야하는 지, 계산식 외우기
* 분포 간의 관계
표본평균, 표본분산으로 정의되는 확률변수들로써,
표본의 수가 많아질수록 중심극한정리에 의해 결국 정규분포에 수렴
특징 | 지수분포 | 정규분포 | t 분포 | 카이제곱 분포 | F 분포 |
형태 | 비대칭 단봉형, 오른쪽 꼬리 |
대칭형 종 모양 | 대칭형, 꼬리 두꺼움 |
비대칭 단봉형, 오른쪽 꼬리 |
비대칭 단봉형, 오른쪽 꼬리 |
평균 | 1 / λ | μ | (ν > 1) | k | |
분산 | 1 / (λ^2) | σ^2 | ν / ( (ν > 2) |
2 k | |
꼬리 두께 | 오른쪽 꼬리 두꺼움 | 꼬리 얇음 | 정규분포보다 꼬리 두꺼움 |
오른쪽 꼬리 두꺼움 | 오른쪽 꼬리 두꺼움 |
사용사례 | 대기 시간, 서비스 시간 분석 |
자연 현상, 오류 모델링 |
작은 표본에서 평균 비교 | 가설 검정, 분산 분석 |
분산 비교, ANOVA |
관련성 | 포아송분포는 지수분포가 반복적으로 누적된 결과 |
중심극한정리 | 정규분포와 유사 ( ) |
정규분포와 관련 | 카이제곱분포와 관련 |
지수분포 (Exponential Distribution)
지수분포함수
- 특정 사건이 발생할 때까지의 대기 시간(또는 거리)을 모델링하는 연속형 확률분포
- 시간이 지날수록 확률이 작아짐. λ 작을수록 그래프 평평해짐
- 평균(기대값)
E(X) = 1 / λ
- 분산
Var(X) = 1 / (λ^2)
- 주로 포아송 과정(시간 단위로 발생하는 사건 간 간격)에 사용
- 포아송분포는 단위 시간 내 사건 횟수를 다루고, 지수분포는 사건 간 시간 간격을 다룸
- 포아송분포에서 X∼Poisson(λ)인 경우, 사건 간 시간 간격은 X∼Exponential(λ) 을 따름
- 포아송분포 예시:
- 특정 시간 동안 고객센터에 도착한 전화 수
- 하루 동안 특정 웹사이트에 방문한 사용자 수
- 지수분포 예시:
- 다음 고객이 콜센터에 전화할 때까지의 시간 간격
- 특정 웹사이트에 방문한 두 사용자 간의 시간 간격
정규분포
- 대표본 모집단에 대한 추론 시
- 평균을 중심으로 좌우대칭, 평균(mean)=중앙값(median)=최빈값(mode)
- 형태와 위치는 평균( μ )과 표준편차( σ )가 결정
- 정규곡선은 x축에 닿지 않으므로 확률변수 X의 범위는 - ∞ < x < + ∞
- 정규곡선 밑의 면적은 1. 평균 기준으로 ± 0.5씩
- 중심극한정리에 의하여 독립적인 확률변수들의 평균은 정규분포에 가까워지는 성질이 있기 때문에 수집된 자료의 분포를 근사하는 데에 자주 사용
- 정규곡선은 정규분포의 확률밀도함수에 의해서 결정할 수 있다.
표준정규분포 (Z분포)
- 확률변수 Z 가 평균=0, 분산=1 인 정규분포
: 가운데 중심을 0으로 맞춤. 평균을 빼고 편차로 나눔.
- Z ~ N(0,1)로 표현
σ | -16 | -8 | 0 | +8 | +16 | ||
x | 51 | 59 | 67 | 75 | 83 | 91 | 99 |
$$X\sim N(75,8^2)$$
▼
$$ Z_i=\frac{X_i-\mu}{\sigma}$$
▼
$$X\sim N(0,1^2)$$
σ | -2 | -1 | 0 | +1 | +2 | ||
x | -3 | -2 | -1 | 0 | 1 | 2 | 3 |
- ± 2는 대략 95%, 그때의 Z 값은 ± 1.96
(.. 본문 그림 참고..)
t 분포 (Student's t-Distribution)
- 모집단의 분산을 모를 때, 모집단의 평균을 추론할 때 (모집단의 평균값을 구하고 싶을 때) 사용
- 소표본인 경우 또는 대표본 경우 모분산을 모를 때 사용
- 정규분포와 유사하게 생겨서 구분 필요. 정규분포보다 첨도가 조금 낮고 양쪽 꼬리가 더 두꺼움
- 좌우 대칭, 중심은 0 (평균)
- 자유도에 따라 형태가 달라짐 -> 자유도 값이 클수록 표준정규분포와 거의 같아짐 (표본이 무한에 가까워지면 동일)
- 표본의 수가 적을 경우**의 평균 검정을 위하여 고안된 분포
- 모집단의 평균 추론 시, 선형 회귀 계수 추론 시
- 데이터의 평균값 검정과 신뢰구간 계산을 위해 자주 사용
- 확률변수, t 통계량 공식
$$ T = \frac {a}{\sqrt {V/v}}=(\overline {X}-\mu )\frac {\sqrt {n}}{S}$$
z: 표준정규분포, v: 자유도
$$= \frac{(\overline{X}-\mu )}{\frac{S}{\sqrt{n}}}$$
(분모 : 표준오차) ** - 추정량, 검정통계에서 사용하는 식
- : 표본 평균 (표본 데이터의 평균값)
- μ: 모집단 평균 (귀무가설에서 가정한 평균값)
- s: 표본표준편차 (표본 데이터로 계산된 분산의 제곱근)
- n: 표본 크기 (표본 데이터의 개수)
- 분자 : 표본 평균과 모집단 평균의 차이를 측정
- 분모 : 표본의 변동성을 고려해 차이를 표준화 -> **표본 평균의 표준오차(Standard Error)**, 표본의 변동성을 나타냄
- t-분포는 표본 크기가 작고 모집단의 표준편차를 모를 때 사용됩니다.
- t-통계량 t는 표본 평균과 모집단 평균의 차이를 표준화한 값입니다.
- 자유도 n−1에 따라 t-분포의 모양이 달라지고, 표본 크기가 커질수록 정규분포에 가까워집니다.
→
카이제곱 분포 (Chi-squared Distribution)
- 표준정규분포를 제곱한 값에 대한 분포
- 모집단 분산 추론 시, 카이제곱 검정 시 사용
- 항상 양수. 심하게 왼쪽으로 쏠린 분포(오른쪽 꼬리). 자유도에 따라 모양이 변함 ** 자유도가 클수록 정규분포에 가까워짐
- 자유도가 k인 \(x^2\) 분포의 평균은 k, 분산은 2k
→
F 분포 (F Distribution)
- 두 개 카이제곱분포의 비율
- 두 모집단의 분산에 대한 불편추정치의 비율
- 이 분산비를 활용하여 두 분산 간의 동질성 여부를 검정하거나 두개 이상의 평균치 간의 차이 유무를 검정
- 두 모집단 분산차이 비교 시, 분산분석, 회귀분석에서 사용 **
- 분산의 비를 이용해서 특징을 추출할 때 사용하는 방법
- 왼쪽으로 치우친 모양(오른쪽 꼬리)으로 두 개의 자유도에 따라 모양이 다름. 자유도가 클수록 정규분포에 가까워짐
'Data Science > 이론' 카테고리의 다른 글
DS 이론09- 선형회귀분석 (0) | 2024.11.20 |
---|---|
DS 이론07~08-추론통계(점/구간추정),상관분석 (0) | 2024.11.19 |
DS 이론 05- 확률변수, 이산확률분포(베르누이, 이항, 포아송) (1) | 2024.11.17 |
DS 이론 04- 확률실험, 베이즈정리 (1) | 2024.11.16 |
DS 이론 01~03- 변수, 일변량/다변량차트, 위치/변이/모양 통계량 (3) | 2024.11.16 |