Data Science/이론

DS 이론 05- 확률변수, 이산확률분포(베르누이, 이항, 포아송)

에너지_2 2024. 11. 17. 12:32
728x90
반응형

 

 

※ 학습자료 정리한 내용입니다.

더보기

https://recipesds.tistory.com/

 

통계분석의 재료 - 확률변수
통계분석의 원리 - 추정
분석결과의 증명 - 검정
본격적 통계분석 - 분석
통계와 기계학습 - 회귀


* 통계
 수치화된 자료(데이터) 자체
 데이터에 대한 대표적 수치 또는 요약
 데이터를 분석하는 방법과 결과
 
*데이터를 분석한다고 하면 해야 할 것들
① 주어진 데이터가 어떻게 생겼는지 알고 싶다. 
  → 기술통계 (Descriptive statistics)로 데이터셋을 시각화한다. (탐색적 분석)
    기술통계 : 주어진 데이터 세트를 설명하고 요약하기 위한 통계 기법
-> 위치(모메민)/변이(Box plot)/모양(skew,kurt) 통계량

② 주어진 샘플로 모수를 알고 싶다.
  → 통계에 기반한 추정 = 추론통계 (inferential statistics)

③ 뭔가 이게 진실인지 알고 싶다.
  = 가설 검정 (Hypothesis Testing)
  
④ 또한 예측을 하고 싶다.
  → 데이터를 통해 예측을 한다. = 예측 분석 (Predictive analytics)
  
⑤ 변수들의 인과관계를 분석하고 싶다. 
  → 인과분석 = 인과추론(Causal Inference) 
  
⑥ 마지막으로 변수끼리의 영향을 분석하고 싶다. 
  → 역학분석, mechanistic  분석이라고 합니다.
  
  
  통계에서 확률을 사용!
  추론통계에서 확률이 사용된다고 생각하면 매우 쉽게 접근할 수 있습니다  예측에도 사용돼.
  통계에서 뭔가 추론을 하거나 예측을 할 때 확률을 이용하여 추론하거나, 확률을 이용해서 설명하게 됩니다.
  
  통계는 표본을 통해서 모집단을 추론할 때 확률을 이용해서 계산하고, 결과를 표현합니다
  표본을 통해서 평균과 분산을 추론할 수 있다면 모집단도 어느 정도 확률분포로 설명할 수 있다는 것이죠.
  
  결국 모수를 추론하기 위해 표본을 뽑게 되는데 이 표본들에서 나오는 여러 가지 수치들을 통계량이라 하고.
  이 통계량이 "확률변수"라는 사실인 것입니다. 표본을 뽑을 때마다 달라질 테니까요.???
  
 - 확률: know 모델 -> data 예측   
           '측정 가능한 이벤트가 일어날 가능성을 표현하는 학문'
           '알려진 모집단에서 주어진 표본이 얻어질 확률 계산'
 - 통계: 모델 예측   <- know data 
            'Sampling(표본추출)을 통해서 관측한 현상에 대한 분석을 하는 학문'
           '주어진 표본을 가지고 모집단에 대해 예측'
  
  결국
① 확률모형은 확률함수로써 불확실성을 계량화하기 위해 사용하는 수학적 표현이고,
② 이런 확률모형에 사용되는 계수들을 모수, 즉 parameter라고 부릅니다.
③ 그러니까, 통계학에서 추론이라는 것은 표본을 이용해서 모수를 추정을 하는 것이고,
④ 그러니까 모수, parameter를 추정한 할 수만 있다면 확률 모형을 추정할 수 있다는 말이고,
⑤ 확률 모형을 안다는 것은 그 분포를 안다는 것과 같은 말이며,
⑥ 분포를 안다는 것은 모집단을 안다는 뜻이며, 어떠한 X값이든 그 X가 발생할 확률을 얻을 수 있다는 말입니다.
  
  통계는 표본을 가지고 모집단을 확률로 예측!!!

확률변수

  • 표본공간의 원소를 실수로 대응한 값 (개발자는 변수라는 명칭이 헷갈릴 수 있으므로 주의)  
  •  ex) HH, HT, TH, TT  표본공간의 원소 -> H = 0, T = 1 실수로 대응 -> 결과: 0 ,  1  ,  1  ,  2  ( 3개의 확률변수)
  • 범주형 데이터를 계산하기 위해 실수로 표현 -> 숫자로 대응시켜야만 수학적 논리를 전개할 수 있기 때문
표본공간의 원소 HH =(0+0) HT, TH =(0+1), (1+0) TT =(1+1) 확률 합계
확률변수 x 0 1 2  
확률 P(X = x) P(X=0) = 1/4 P(X=1) =  2/4 P(X=2) = 1/4 1

 

- 확률 변수는 하나의 값이다. 개별 데이터로 생각하면 데이터 집합 X = {0,1,1,2}로 표현된다. 

   X 데이터 집합을 그래프로 표현하면 종모양 그림이 그려지며, 데이터 분포라는 것을 알 수 있다.

- 확률변수 x가 취하는 각 경우에 대한 확률을 표 or 함수식으로 표현하는 것을 확률분포

- 즉, 확률분포는 확률 변수의 모든 값과 그에 대응하는 확률들이 어떻게 분포하고 있는 지를 의미함

 

확률변수 x  &   확률 P(X = x)  => 확률분포

확률분포

- 확률분포가 필요한 이유는 해당 확률분포를 따른다고 가정한 확률변수 x의 발생 가능성 P(X)을 예측하기 위해서이다.

- "~~ 은 확률변수이고, ~~ 분포를 따른다"

    -> 어떤 분포가 있는지! 특정 분포가 어떤 상황에 적용되는지! 알아두기

 

- "데이터가 어떠한 현상에 의해 생겨났는 가에 따라 적용할 수 있는 분포가 달라진다"

    즉, 확률질량함수 / 확률밀도함수에 따라 적용할 수 있는 확률분포가 달라진다.

 

확률분포함수  PMF, PDF 
  • 확률질량함수(PMF) p : 대상 변수가 이산 변수. 모든 실수 x에 대하여 f(x) >= 0
    • 유한 개의 사건이 존재하는 경우, 각 단순사건에 대한 확률만을 정의하는 함수
    • ex) P({A}) = 0.1,  P({B}) = 0.2,  P({C}) = 0.3, P({D}) = 0.4   -> P({A , B}) = 0.1 + 0.2 = 0.3
    • 이산확률분포는 확률질량함수로 표현됨. 이항 분포, 초기하 분포, 포아송 분포

 

- 확률 P({A})!= 확률질량함수 p(A)

   ex) 원소가 하나뿐인 사건 {1}에 대해 확률 P({1}) = 0.2 , 확률질량함수 p(1) = 0.2

   BUT, 원소 2개 이상인 사건에 대해 확률     P({2,3}) = 0.1 , 확률질량함수 p(2,3) = 틀린 식

- 확률질량함수는 사건이 아닌 원소(단순사건)에 대해서만 정의된다.

 


- 확률질량함수에서
 표본공간에 있는 표본 수가 유한할 때

   하나하나의 표본에 대해서만 확률을 정의하면 어떠한 사건에 대해서도 확률을 정의할 수 있다는 것을 알았다.

- 왜 확률을 정의할 때 입력을 표본이 아닌 사건으로 정의했을까?

  -> 표본공간에 있는 표본 수가 무한한 경우를 다루기 위해서  '구간' 개념이 나온다

 

숫자 하나만으로 사건 즉, 구간을 정의할 수 있는 방법은 없을까?

 

  • 누적분포함수(CDF) : F(x)
    • P(−∞, b)P(−∞, a)+P(a, b)     -> F(b)=F(a)+P(a,b)

 

 분포의 형상을 좀 더 직관적으로 이해하기 위해 = 어떤 확률 변수 값이 더 자주 나오는지에 대한 정보를 알기 위해

    확률 변수가 나올 수 있는 전체 구간 (−∞−∞ ~ ∞∞)을 아주 작은 폭 dx를 가지는 구간들로 나눈 다음에 확률 확인

 

  • 확률밀도함수(PDF) : 대상 변수가 연속변수 
    • 구간의 면적이 확률이 됨.
    • 연속확률분포는 확률밀도함수로 표현됨. 정규분포, t분포, 카이제곱분포, F분포, 지수분포

- 특정한 구간의 확률이 다른 구간에 비해 상대적으로 얼마나 높은가를 나타내는 것이며 그 값 자체가 확률은 아니다는 점을 명심해야 한다.

 

 

이산확률분포의 기댓값(평균)과 분산 **

  1. 기댓값 E(x) 의 특성

$$E(a)=a$$

$$E(bX)= bE(X)$$

$$E(aX+bY)=aE(X)+bE(Y)$$

 

  1. 분산 Var(a) 의 특성

$$Var(a)=0$$

$$Var(bX)=b^2Var(x)$$

 

 

균등분포: 확률분포함수가 정의된 모든 곳에서 값이 일정한 분포

 


이산확률분포**

특성 베르누이 분포 이항분포,  Binomial Distribution 포아송분포, Poisson Distribution
상황 단일 시행의 성공/실패 고정된 n번의 시행 중 성공 횟수 일정 시간/공간 내 사건 발생 횟수
결과 {0,1} {0,1,2,…,n} {0,1,2,…}
조건 p 시행 횟수 n 고정, 성공 확률 일정 p 사건 발생의 평균 횟수 λ 고정
파라미터 λ (평균 발생률의 역수)
평균(E(X) λ
분산 Var(X) λ
적용 사례 동전 1회 던지기 동전 던지기, 시험 문제 정답 수 전화센터의 시간당 전화 횟수,
특정 지역의 교통사고 횟
분포 형태 이 크면 or p = 0.5 에 가까우면,
정규분포에 가까움 
λ 가 크면 정규분포에 가까움
독립성 단일 시행에서는
독립성의 개념이 적용되지 않음
각 시행이 독립적 시간/공간 내 사건 간 독립적 


[이산확률분포 간 관계]

  1. 베르누이 → 이항:
    • 베르누이 시행을 n번 반복하면 이항분포를 얻음
    • 베르누이 분포는 이항분포의 특수한 형태로, n=1일 때 이항분포와 동일
  2. 이항 → 포아송:
    • 시행 횟수 n이 매우 크고 성공 확률 p이 매우 작아 np = λ (기대값)이 일정할 때, 이항분포는 포아송분포로 근사
    • 포아송분포는 이항분포의 극한 형태로 볼 수 있음
  3. 베르누이 ↔ 포아송:
    • 베르누이는 단일 사건에 초점을 맞추는 반면, 포아송은 여러 사건의 발생 횟수를 다룸

베르누이 분포

확률질량함수(PMF)

성공확률 x 실패확률

 

- 평균(기대값)

       E(X) = p

- 분산

       Var(X) = p(1−p)

 

 

 

이항분포(Binomial Distribution)

확률질량함수(PMF)

 

- 모수인 시행횟수 n과 성공확률 p의 값에 따라 결정

- 좌우대칭의 종모양을 나타내는 경우

  1) 성공확률 p = 0.5 에 가까우면 시행횟수 n 크기에 관계없이

  2) 시행횟수 n 이 크면 성공확률 p 크기에 관계없이 

 

- 평균(기대값)

       E(X) = np

- 분산

       Var(X) = np(1−p)

 

- 꼬리분포 : 성공 확률의 극단적인 경우(좌측 꼬리 또는 우측 꼬리)에 해당하는 확률을 분석하는 데 사용

   p = 0.5 에 가까우면, 정규분포에 가까움

   p < 0.5 (실패가 더 자주 발생)이고 n이 작은 경우 오른쪽 꼬리분포

   p > 0.5 이고 n이 작은 경우 왼쪽 꼬리분포

 

포아송분포, Poisson Distribution

확률질량함수(PMF)

λ : 주어진 시간/공간 내에서의 평균 발생 횟수(기대값)

 

- 고정된 시간 또는 공간 내에서 사건이 발생하는 희소 사건(드물게 발생하는 사건)을 다루는 데 적합함

- 구간 내에서 사건이 발생할 확률은 일정함

  • : 특정 시간 또는 공간에서 발생한 사건의 횟수
  • λ: 주어진 시간/공간 내에서의 평균 발생 횟수(기대값)
  • x: 실제로 발생한 사건의 횟수
  • e: 자연상수(약 2.718)

 

- 평균(기대값), 분산

       E(X) = Var(X) =   λ

 

- 꼬리분포 

  λ 값이 커질 수록 정규분포에 가까움

 

ex) 한 시간 동안 특정 웹사이트에 방문자가 평균 5명 들어오는 경우(기대값 λ=5), 한 시간 동안 방문자가 정확히 3명일 확률

 

 


 
참고 사이트) 

https://blog.naver.com/angryking/222383671753

https://blog.naver.com/kiakass/222037756519

728x90
반응형