DS 이론 05- 확률변수, 이산확률분포(베르누이, 이항, 포아송)

Data Science/이론

DS 이론 05- 확률변수, 이산확률분포(베르누이, 이항, 포아송)

에너지_2 2024. 11. 17. 12:32

728x90

※ 학습자료 정리한 내용입니다.

https://recipesds.tistory.com/

통계분석의 재료 - 확률변수
통계분석의 원리 - 추정
분석결과의 증명 - 검정
본격적 통계분석 - 분석
통계와 기계학습 - 회귀

* 통계
수치화된 자료(데이터) 자체
데이터에 대한 대표적 수치 또는 요약
데이터를 분석하는 방법과 결과

*데이터를 분석한다고 하면 해야 할 것들
① 주어진 데이터가 어떻게 생겼는지 알고 싶다.
  → 기술통계 (Descriptive statistics)로 데이터셋을 시각화한다. (탐색적 분석)
    기술통계 : 주어진 데이터 세트를 설명하고 요약하기 위한 통계 기법
-> 위치(모메민)/변이(Box plot)/모양(skew,kurt) 통계량

② 주어진 샘플로 모수를 알고 싶다.
  → 통계에 기반한 추정 = 추론통계 (inferential statistics)

③ 뭔가 이게 진실인지 알고 싶다.
  = 가설 검정 (Hypothesis Testing)

④ 또한 예측을 하고 싶다.
  → 데이터를 통해 예측을 한다. = 예측 분석 (Predictive analytics)

⑤ 변수들의 인과관계를 분석하고 싶다.
  → 인과분석 = 인과추론(Causal Inference)

⑥ 마지막으로 변수끼리의 영향을 분석하고 싶다.
  → 역학분석, mechanistic  분석이라고 합니다.


  통계에서 확률을 사용!
  추론통계에서 확률이 사용된다고 생각하면 매우 쉽게 접근할 수 있습니다  예측에도 사용돼.
  통계에서 뭔가 추론을 하거나 예측을 할 때 확률을 이용하여 추론하거나, 확률을 이용해서 설명하게 됩니다.

  통계는 표본을 통해서 모집단을 추론할 때 확률을 이용해서 계산하고, 결과를 표현합니다
  표본을 통해서 평균과 분산을 추론할 수 있다면 모집단도 어느 정도 확률분포로 설명할 수 있다는 것이죠.

  결국 모수를 추론하기 위해 표본을 뽑게 되는데 이 표본들에서 나오는 여러 가지 수치들을 통계량이라 하고.
  이 통계량이 "확률변수"라는 사실인 것입니다. 표본을 뽑을 때마다 달라질 테니까요.???

- 확률: know 모델 -> data 예측
'측정 가능한 이벤트가 일어날 가능성을 표현하는 학문'
'알려진 모집단에서 주어진 표본이 얻어질 확률 계산'
- 통계: 모델 예측   <- know data
'Sampling(표본추출)을 통해서 관측한 현상에 대한 분석을 하는 학문'
'주어진 표본을 가지고 모집단에 대해 예측'

  결국
① 확률모형은 확률함수로써 불확실성을 계량화하기 위해 사용하는 수학적 표현이고,
② 이런 확률모형에 사용되는 계수들을 모수, 즉 parameter라고 부릅니다.
③ 그러니까, 통계학에서 추론이라는 것은 표본을 이용해서 모수를 추정을 하는 것이고,
④ 그러니까 모수, parameter를 추정한 할 수만 있다면 확률 모형을 추정할 수 있다는 말이고,
⑤ 확률 모형을 안다는 것은 그 분포를 안다는 것과 같은 말이며,
⑥ 분포를 안다는 것은 모집단을 안다는 뜻이며, 어떠한 X값이든 그 X가 발생할 확률을 얻을 수 있다는 말입니다.

  통계는 표본을 가지고 모집단을 확률로 예측!!!

확률변수

표본공간의 원소를 실수로 대응한 값 (개발자는 변수라는 명칭이 헷갈릴 수 있으므로 주의)
ex) HH, HT, TH, TT 표본공간의 원소 -> H = 0, T = 1 실수로 대응 -> 결과: 0 , 1 , 1 , 2 ( 3개의 확률변수)
범주형 데이터를 계산하기 위해 실수로 표현 -> 숫자로 대응시켜야만 수학적 논리를 전개할 수 있기 때문

표본공간의 원소	HH =(0+0)	HT, TH =(0+1), (1+0)	TT =(1+1)	확률 합계
확률변수 x	0	1	2
확률 P(X = x)	P(X=0) = 1/4	P(X=1) = 2/4	P(X=2) = 1/4	1

- 확률 변수는 하나의 값이다. 개별 데이터로 생각하면 데이터 집합 X = {0,1,1,2}로 표현된다.

X 데이터 집합을 그래프로 표현하면 종모양 그림이 그려지며, 데이터 분포라는 것을 알 수 있다.

- 확률변수 x가 취하는 각 경우에 대한 확률을 표 or 함수식으로 표현하는 것을 확률분포

- 즉, 확률분포는 확률 변수의 모든 값과 그에 대응하는 확률들이 어떻게 분포하고 있는 지를 의미함

확률변수 x & 확률 P(X = x) => 확률분포

확률분포

- 확률분포가 필요한 이유는 해당 확률분포를 따른다고 가정한 확률변수 x의 발생 가능성 P(X)을 예측하기 위해서이다.

- "~~ 은 확률변수이고, ~~ 분포를 따른다"

-> 어떤 분포가 있는지! 특정 분포가 어떤 상황에 적용되는지! 알아두기

- "데이터가 어떠한 현상에 의해 생겨났는 가에 따라 적용할 수 있는 분포가 달라진다"

즉, 확률질량함수 / 확률밀도함수에 따라 적용할 수 있는 확률분포가 달라진다.

확률분포함수 PMF, PDF

확률질량함수(PMF) p : 대상 변수가 이산 변수. 모든 실수 x에 대하여 f(x) >= 0
- 유한 개의 사건이 존재하는 경우, 각 단순사건에 대한 확률만을 정의하는 함수
- ex) P({A}) = 0.1, P({B}) = 0.2, P({C}) = 0.3, P({D}) = 0.4 -> P({A , B}) = 0.1 + 0.2 = 0.3
- 이산확률분포는 확률질량함수로 표현됨. 이항 분포, 초기하 분포, 포아송 분포

- 확률 P({A})!= 확률질량함수 p(A)

ex) 원소가 하나뿐인 사건 {1}에 대해 확률 P({1}) = 0.2 , 확률질량함수 p(1) = 0.2

BUT, 원소 2개 이상인 사건에 대해 확률 P({2,3}) = 0.1 , 확률질량함수 p(2,3) = 틀린 식

- 확률질량함수는 사건이 아닌 원소(단순사건)에 대해서만 정의된다.

- 확률질량함수에서 표본공간에 있는 표본 수가 유한할 때

하나하나의 표본에 대해서만 확률을 정의하면 어떠한 사건에 대해서도 확률을 정의할 수 있다는 것을 알았다.

- 왜 확률을 정의할 때 입력을 표본이 아닌 사건으로 정의했을까?

-> 표본공간에 있는 표본 수가 무한한 경우를 다루기 위해서 '구간' 개념이 나온다

- 숫자 하나만으로 사건 즉, 구간을 정의할 수 있는 방법은 없을까?

누적분포함수(CDF) : F(x)
- P(−∞, b)= P(−∞, a)+P(a, b) -> F(b)=F(a)+P(a,b)

- 분포의 형상을 좀 더 직관적으로 이해하기 위해 = 어떤 확률 변수 값이 더 자주 나오는지에 대한 정보를 알기 위해

확률 변수가 나올 수 있는 전체 구간 ( $- \infty$ ~ $\infty$ )을 아주 작은 폭 dx를 가지는 구간들로 나눈 다음에 확률 확인

확률밀도함수(PDF) : 대상 변수가 연속변수
- 구간의 면적이 확률이 됨.
- 연속확률분포는 확률밀도함수로 표현됨. 정규분포, t분포, 카이제곱분포, F분포, 지수분포

- 특정한 구간의 확률이 다른 구간에 비해 상대적으로 얼마나 높은가를 나타내는 것이며 그 값 자체가 확률은 아니다는 점을 명심해야 한다.

이산확률분포의 기댓값(평균)과 분산 **

기댓값 E(x) 의 특성

$$E(a)=a$$

$$E(bX)= bE(X)$$

$$E(aX+bY)=aE(X)+bE(Y)$$

분산 Var(a) 의 특성

$$Var(a)=0$$

$$Var(bX)=b^2Var(x)$$

균등분포: 확률분포함수가 정의된 모든 곳에서 값이 일정한 분포

이산확률분포**

특성	베르누이 분포	이항분포, Binomial Distribution	포아송분포, Poisson Distribution
상황	단일 시행의 성공/실패	고정된 n번의 시행 중 성공 횟수	일정 시간/공간 내 사건 발생 횟수
결과	{0,1}	{0,1,2,…,n}	{0,1,2,…}
조건	p	시행 횟수 n 고정, 성공 확률 일정 p	사건 발생의 평균 횟수 λ 고정
파라미터			λ (평균 발생률의 역수)
평균(E(X))			λ
분산 Var(X)			λ
적용 사례	동전 1회 던지기	동전 던지기, 시험 문제 정답 수	전화센터의 시간당 전화 횟수, 특정 지역의 교통사고 횟
분포 형태		이 크면 or p = 0.5 에 가까우면, 정규분포에 가까움	λ 가 크면 정규분포에 가까움
독립성	단일 시행에서는 독립성의 개념이 적용되지 않음	각 시행이 독립적	시간/공간 내 사건 간 독립적

[이산확률분포 간 관계]

베르누이 → 이항:
- 베르누이 시행을 n번 반복하면 이항분포를 얻음
- 베르누이 분포는 이항분포의 특수한 형태로, n=1일 때 이항분포와 동일
이항 → 포아송:
- 시행 횟수 n이 매우 크고 성공 확률 p이 매우 작아 np = λ (기대값)이 일정할 때, 이항분포는 포아송분포로 근사
- 포아송분포는 이항분포의 극한 형태로 볼 수 있음
베르누이 ↔ 포아송:
- 베르누이는 단일 사건에 초점을 맞추는 반면, 포아송은 여러 사건의 발생 횟수를 다룸

베르누이 분포

확률질량함수(PMF)

- 평균(기대값)

E(X) = p

- 분산

Var(X) = p(1−p)

이항분포(Binomial Distribution)

확률질량함수(PMF)

- 모수인 시행횟수 n과 성공확률 p의 값에 따라 결정

- 좌우대칭의 종모양을 나타내는 경우

1) 성공확률 p = 0.5 에 가까우면 시행횟수 n 크기에 관계없이

2) 시행횟수 n 이 크면 성공확률 p 크기에 관계없이

- 평균(기대값)

E(X) = np

- 분산

Var(X) = np(1−p)

- 꼬리분포 : 성공 확률의 극단적인 경우(좌측 꼬리 또는 우측 꼬리)에 해당하는 확률을 분석하는 데 사용

p = 0.5 에 가까우면, 정규분포에 가까움

p < 0.5 (실패가 더 자주 발생)이고 n이 작은 경우 오른쪽 꼬리분포

p > 0.5 이고 n이 작은 경우 왼쪽 꼬리분포

포아송분포, Poisson Distribution

확률질량함수(PMF)

- 고정된 시간 또는 공간 내에서 사건이 발생하는 희소 사건(드물게 발생하는 사건)을 다루는 데 적합함

- 구간 내에서 사건이 발생할 확률은 일정함

: 특정 시간 또는 공간에서 발생한 사건의 횟수
λ: 주어진 시간/공간 내에서의 평균 발생 횟수(기대값)
x: 실제로 발생한 사건의 횟수
e: 자연상수(약 2.718)

- 평균(기대값), 분산

E(X) = Var(X) = λ

- 꼬리분포

λ 값이 커질 수록 정규분포에 가까움

ex) 한 시간 동안 특정 웹사이트에 방문자가 평균 5명 들어오는 경우(기대값 λ=5), 한 시간 동안 방문자가 정확히 3명일 확률

참고 사이트)

https://blog.naver.com/angryking/222383671753

https://blog.naver.com/kiakass/222037756519

728x90

'Data Science > 이론' 카테고리의 다른 글

DS 이론09- 선형회귀분석 (0)	2024.11.20
DS 이론07~08-추론통계(점/구간추정),상관분석 (0)	2024.11.19
DS 이론 06- 연속확률분포(지수,정규,t,카이제곱,f) (0)	2024.11.18
DS 이론 04- 확률실험, 베이즈정리 (1)	2024.11.16
DS 이론 01~03- 변수, 일변량/다변량차트, 위치/변이/모양 통계량 (3)	2024.11.16

현재글DS 이론 05- 확률변수, 이산확률분포(베르누이, 이항, 포아송)

에너지와 함께

🔔📚📝💻💰🏠

160x600

에너지와 함께

DS 이론 05- 확률변수, 이산확률분포(베르누이, 이항, 포아송)

확률변수