Data Science/이론

DS 이론 06- 연속확률분포(지수,정규,t,카이제곱,f)

에너지_2 2024. 11. 18. 23:18
728x90
반응형

 

 

※ 학습자료 정리한 내용입니다.

 

- 공식을 말로도 풀 수 있어야 함

- 어떤 경우에 어떤 분포를 사용해야하는 지, 계산식 외우기

 

* 분포 간의 관계

표본평균, 표본분산으로 정의되는 확률변수들로써,

표본의 수가 많아질수록 중심극한정리에 의해 결국 정규분포에 수렴

 

특징 지수분포 정규분포 t 분포 카이제곱 분포 F 분포
형태 비대칭 단봉형,
오른쪽 꼬리
대칭형 종 모양 대칭형,
꼬리 두꺼움 
비대칭 단봉형,
오른쪽 꼬리
비대칭 단봉형,
오른쪽 꼬리
평균 ​1 / λ μ   (ν > 1 k  
분산 ​1 / (λ^2) σ^2 ν​ / ( 
(ν > 2) 
2 k  
꼬리 두께 오른쪽 꼬리 두꺼움 꼬리 얇음 정규분포보다
꼬리 두꺼움 
오른쪽 꼬리 두꺼움 오른쪽 꼬리 두꺼움
사용사례 대기 시간,
서비스 시간 분석
자연 현상,
오류 모델링
작은 표본에서 평균 비교 가설 검정,
분산 분석
분산 비교,
ANOVA
관련성 포아송분포는
지수분포가 반복적으로 누적된 결과
중심극한정리 정규분포와 유사
()
정규분포와 관련 카이제곱분포와 관련

지수분포 (Exponential Distribution)

지수분포함수

 

 

- 특정 사건이 발생할 때까지의 대기 시간(또는 거리)을 모델링하는 연속형 확률분포

- 시간이 지날수록 확률이 작아짐. λ 작을수록 그래프 평평해짐


- 평균(기대값)

       E(X) = ​1 / λ

- 분산

       Var(X) = ​1 / (λ^2)

 

- 주로 포아송 과정(시간 단위로 발생하는 사건 간 간격)에 사용

  • 포아송분포는 단위 시간 내 사건 횟수를 다루고, 지수분포는 사건 간 시간 간격을 다룸
  • 포아송분포에서 X∼Poisson(λ)인 경우, 사건 간 시간 간격은 X∼Exponential(λ) 을 따름
  • 포아송분포 예시:
    • 특정 시간 동안 고객센터에 도착한 전화 수
    • 하루 동안 특정 웹사이트에 방문한 사용자 수
  • 지수분포 예시:
    • 다음 고객이 콜센터에 전화할 때까지의 시간 간격
    • 특정 웹사이트에 방문한 두 사용자 간의 시간 간격

 

정규분포

  • 대표본 모집단에 대한 추론 시
  • 평균을 중심으로 좌우대칭, 평균(mean)=중앙값(median)=최빈값(mode)
  • 형태와 위치는 평균( μ )과 표준편차( σ )가 결정
  • 정규곡선은 x축에 닿지 않으므로 확률변수 X의 범위는 - ∞ < x < +
  • 정규곡선 밑의 면적은 1. 평균 기준으로 ± 0.5씩
  • 중심극한정리에 의하여 독립적인 확률변수들의 평균은 정규분포에 가까워지는 성질이 있기 때문에 수집된 자료의 분포를 근사하는 데에 자주 사용

- 정규곡선은 정규분포의 확률밀도함수에 의해서 결정할 수 있다.

중심극한정리

 

표준정규분포 (Z분포)

 

- 확률변수 Z 가 평균=0, 분산=1 인 정규분포

    : 가운데 중심을 0으로 맞춤. 평균을 빼고 편차로 나눔.

- Z ~ N(0,1)로 표현

σ   -16 -8 0 +8 +16  
x 51 59 67 75 83 91 99

 

$$X\sim N(75,8^2)$$

$$ Z_i=\frac{X_i-\mu}{\sigma}$$

$$X\sim N(0,1^2)$$

σ   -2 -1 0 +1 +2  
x -3 -2 -1 0 1 2 3

 

± 2는 대략 95%, 그때의 Z 값은 ± 1.96

구간 값

 

(.. 본문 그림 참고..)

 

 

t 분포 (Student's t-Distribution)

- 모집단의 분산을 모를 때, 모집단의 평균을 추론할 때 (모집단의 평균값을 구하고 싶을 때) 사용

- 소표본인 경우 또는 대표본 경우 모분산을 모를 때 사용

- 정규분포와 유사하게 생겨서 구분 필요. 정규분포보다 첨도가 조금 낮고 양쪽 꼬리가 더 두꺼움

  • 좌우 대칭, 중심은 0 (평균)
  • 자유도에 따라 형태가 달라짐 -> 자유도 값이 클수록 표준정규분포와 거의 같아짐 (표본이 무한에 가까워지면 동일)
  • 표본의 수가 적을 경우**의 평균 검정을 위하여 고안된 분포
  • 모집단의 평균 추론 시, 선형 회귀 계수 추론

- 데이터의 평균값 검정과 신뢰구간 계산을 위해 자주 사용

 

  • 확률변수, t 통계량 공식

$$ T = \frac {a}{\sqrt {V/v}}=(\overline {X}-\mu )\frac {\sqrt {n}}{S}$$

z: 표준정규분포, v: 자유도

$$= \frac{(\overline{X}-\mu )}{\frac{S}{\sqrt{n}}}$$

(분모 : 표준오차) ** - 추정량, 검정통계에서 사용하는 식

 

  1. : 표본 평균 (표본 데이터의 평균값)
  2. μ: 모집단 평균 (귀무가설에서 가정한 평균값)
  3. s: 표본표준편차 (표본 데이터로 계산된 분산의 제곱근)
  4. n: 표본 크기 (표본 데이터의 개수)

 

  • 분자 : 표본 평균과 모집단 평균의 차이를 측정
  • 분모 : 표본의 변동성을 고려해 차이를 표준화 -> **표본 평균의 표준오차(Standard Error)**, 표본의 변동성을 나타냄

 

 

 

- t-분포는 표본 크기가 작고 모집단의 표준편차를 모를 때 사용됩니다.

- t-통계량 t는 표본 평균과 모집단 평균의 차이를 표준화한 값입니다.

- 자유도 n−1에 따라 t-분포의 모양이 달라지고, 표본 크기가 커질수록 정규분포에 가까워집니다.

 

 

 

카이제곱 분포 (Chi-squared Distribution)

  • 표준정규분포를 제곱한 값에 대한 분포
  • 모집단 분산 추론 시, 카이제곱 검정 시 사용 
  • 항상 양수. 심하게 왼쪽으로 쏠린 분포(오른쪽 꼬리). 자유도에 따라 모양이 변함 ** 자유도가 클수록 정규분포에 가까워짐
  • 자유도가 k인  \(x^2\)  분포의 평균은 k, 분산은 2k 

 

F 분포 (F Distribution)

  • 두 개 카이제곱분포의 비율
  • 두 모집단의 분산에 대한 불편추정치의 비율
  • 이 분산비를 활용하여 두 분산 간의 동질성 여부를 검정하거나 두개 이상의 평균치 간의 차이 유무를 검정 
  • 두 모집단 분산차이 비교 시, 분산분석, 회귀분석에서 사용 **
  •  
  • 분산의 비를 이용해서 특징을 추출할 때 사용하는 방법
  • 왼쪽으로 치우친 모양(오른쪽 꼬리)으로 두 개의 자유도에 따라 모양이 다름. 자유도가 클수록 정규분포에 가까워짐

728x90
반응형