※ 학습자료 정리한 내용입니다.
https://recipesds.tistory.com/
통계분석의 재료 - 확률변수
통계분석의 원리 - 추정
분석결과의 증명 - 검정
본격적 통계분석 - 분석
통계와 기계학습 - 회귀
* 통계
수치화된 자료(데이터) 자체
데이터에 대한 대표적 수치 또는 요약
데이터를 분석하는 방법과 결과
*데이터를 분석한다고 하면 해야 할 것들
① 주어진 데이터가 어떻게 생겼는지 알고 싶다.
→ 기술통계 (Descriptive statistics)로 데이터셋을 시각화한다. (탐색적 분석)
기술통계 : 주어진 데이터 세트를 설명하고 요약하기 위한 통계 기법
-> 위치(모메민)/변이(Box plot)/모양(skew,kurt) 통계량
② 주어진 샘플로 모수를 알고 싶다.
→ 통계에 기반한 추정 = 추론통계 (inferential statistics)
③ 뭔가 이게 진실인지 알고 싶다.
= 가설 검정 (Hypothesis Testing)
④ 또한 예측을 하고 싶다.
→ 데이터를 통해 예측을 한다. = 예측 분석 (Predictive analytics)
⑤ 변수들의 인과관계를 분석하고 싶다.
→ 인과분석 = 인과추론(Causal Inference)
⑥ 마지막으로 변수끼리의 영향을 분석하고 싶다.
→ 역학분석, mechanistic 분석이라고 합니다.
통계에서 확률을 사용!
추론통계에서 확률이 사용된다고 생각하면 매우 쉽게 접근할 수 있습니다 예측에도 사용돼.
통계에서 뭔가 추론을 하거나 예측을 할 때 확률을 이용하여 추론하거나, 확률을 이용해서 설명하게 됩니다.
통계는 표본을 통해서 모집단을 추론할 때 확률을 이용해서 계산하고, 결과를 표현합니다
표본을 통해서 평균과 분산을 추론할 수 있다면 모집단도 어느 정도 확률분포로 설명할 수 있다는 것이죠.
결국 모수를 추론하기 위해 표본을 뽑게 되는데 이 표본들에서 나오는 여러 가지 수치들을 통계량이라 하고.
이 통계량이 "확률변수"라는 사실인 것입니다. 표본을 뽑을 때마다 달라질 테니까요.???
- 확률: know 모델 -> data 예측
'측정 가능한 이벤트가 일어날 가능성을 표현하는 학문'
'알려진 모집단에서 주어진 표본이 얻어질 확률 계산'
- 통계: 모델 예측 <- know data
'Sampling(표본추출)을 통해서 관측한 현상에 대한 분석을 하는 학문'
'주어진 표본을 가지고 모집단에 대해 예측'
결국
① 확률모형은 확률함수로써 불확실성을 계량화하기 위해 사용하는 수학적 표현이고,
② 이런 확률모형에 사용되는 계수들을 모수, 즉 parameter라고 부릅니다.
③ 그러니까, 통계학에서 추론이라는 것은 표본을 이용해서 모수를 추정을 하는 것이고,
④ 그러니까 모수, parameter를 추정한 할 수만 있다면 확률 모형을 추정할 수 있다는 말이고,
⑤ 확률 모형을 안다는 것은 그 분포를 안다는 것과 같은 말이며,
⑥ 분포를 안다는 것은 모집단을 안다는 뜻이며, 어떠한 X값이든 그 X가 발생할 확률을 얻을 수 있다는 말입니다.
통계는 표본을 가지고 모집단을 확률로 예측!!!
확률변수
- 표본공간의 원소를 실수로 대응한 값 (개발자는 변수라는 명칭이 헷갈릴 수 있으므로 주의)
- ex) HH, HT, TH, TT 표본공간의 원소 -> H = 0, T = 1 실수로 대응 -> 결과: 0 , 1 , 1 , 2 ( 3개의 확률변수)
- 범주형 데이터를 계산하기 위해 실수로 표현 -> 숫자로 대응시켜야만 수학적 논리를 전개할 수 있기 때문
표본공간의 원소 | HH =(0+0) | HT, TH =(0+1), (1+0) | TT =(1+1) | 확률 합계 |
확률변수 x | 0 | 1 | 2 | |
확률 P(X = x) | P(X=0) = 1/4 | P(X=1) = 2/4 | P(X=2) = 1/4 | 1 |
- 확률 변수는 하나의 값이다. 개별 데이터로 생각하면 데이터 집합 X = {0,1,1,2}로 표현된다.
X 데이터 집합을 그래프로 표현하면 종모양 그림이 그려지며, 데이터 분포라는 것을 알 수 있다.
- 확률변수 x가 취하는 각 경우에 대한 확률을 표 or 함수식으로 표현하는 것을 확률분포
- 즉, 확률분포는 확률 변수의 모든 값과 그에 대응하는 확률들이 어떻게 분포하고 있는 지를 의미함
확률변수 x & 확률 P(X = x) => 확률분포
확률분포
- 확률분포가 필요한 이유는 해당 확률분포를 따른다고 가정한 확률변수 x의 발생 가능성 P(X)을 예측하기 위해서이다.
- "~~ 은 확률변수이고, ~~ 분포를 따른다"
-> 어떤 분포가 있는지! 특정 분포가 어떤 상황에 적용되는지! 알아두기
- "데이터가 어떠한 현상에 의해 생겨났는 가에 따라 적용할 수 있는 분포가 달라진다"
즉, 확률질량함수 / 확률밀도함수에 따라 적용할 수 있는 확률분포가 달라진다.
확률분포함수 PMF, PDF
- 확률질량함수(PMF) p : 대상 변수가 이산 변수. 모든 실수 x에 대하여 f(x) >= 0
- 유한 개의 사건이 존재하는 경우, 각 단순사건에 대한 확률만을 정의하는 함수
- ex) P({A}) = 0.1, P({B}) = 0.2, P({C}) = 0.3, P({D}) = 0.4 -> P({A , B}) = 0.1 + 0.2 = 0.3
- 이산확률분포는 확률질량함수로 표현됨. 이항 분포, 초기하 분포, 포아송 분포
- 확률 P({A})!= 확률질량함수 p(A)
ex) 원소가 하나뿐인 사건 {1}에 대해 확률 P({1}) = 0.2 , 확률질량함수 p(1) = 0.2
BUT, 원소 2개 이상인 사건에 대해 확률 P({2,3}) = 0.1 , 확률질량함수 p(2,3) = 틀린 식
- 확률질량함수는 사건이 아닌 원소(단순사건)에 대해서만 정의된다.
- 확률질량함수에서 표본공간에 있는 표본 수가 유한할 때
하나하나의 표본에 대해서만 확률을 정의하면 어떠한 사건에 대해서도 확률을 정의할 수 있다는 것을 알았다.
- 왜 확률을 정의할 때 입력을 표본이 아닌 사건으로 정의했을까?
-> 표본공간에 있는 표본 수가 무한한 경우를 다루기 위해서 '구간' 개념이 나온다
- 숫자 하나만으로 사건 즉, 구간을 정의할 수 있는 방법은 없을까?
- 누적분포함수(CDF) : F(x)
- P(−∞, b)= P(−∞, a)+P(a, b) -> F(b)=F(a)+P(a,b)
- 분포의 형상을 좀 더 직관적으로 이해하기 위해 = 어떤 확률 변수 값이 더 자주 나오는지에 대한 정보를 알기 위해
확률 변수가 나올 수 있는 전체 구간 (−∞−∞ ~ ∞∞)을 아주 작은 폭 dx를 가지는 구간들로 나눈 다음에 확률 확인
- 확률밀도함수(PDF) : 대상 변수가 연속변수
- 구간의 면적이 확률이 됨.
- 연속확률분포는 확률밀도함수로 표현됨. 정규분포, t분포, 카이제곱분포, F분포, 지수분포
- 특정한 구간의 확률이 다른 구간에 비해 상대적으로 얼마나 높은가를 나타내는 것이며 그 값 자체가 확률은 아니다는 점을 명심해야 한다.
이산확률분포의 기댓값(평균)과 분산 **
- 기댓값 E(x) 의 특성
$$E(a)=a$$
$$E(bX)= bE(X)$$
$$E(aX+bY)=aE(X)+bE(Y)$$
- 분산 Var(a) 의 특성
$$Var(a)=0$$
$$Var(bX)=b^2Var(x)$$
균등분포: 확률분포함수가 정의된 모든 곳에서 값이 일정한 분포
이산확률분포**
특성 | 베르누이 분포 | 이항분포, Binomial Distribution | 포아송분포, Poisson Distribution |
상황 | 단일 시행의 성공/실패 | 고정된 n번의 시행 중 성공 횟수 | 일정 시간/공간 내 사건 발생 횟수 |
결과 | {0,1} | {0,1,2,…,n} | {0,1,2,…} |
조건 | p | 시행 횟수 n 고정, 성공 확률 일정 p | 사건 발생의 평균 횟수 λ 고정 |
파라미터 | λ (평균 발생률의 역수) | ||
평균(E(X)) | λ | ||
분산 Var(X) | λ | ||
적용 사례 | 동전 1회 던지기 | 동전 던지기, 시험 문제 정답 수 | 전화센터의 시간당 전화 횟수, 특정 지역의 교통사고 횟 |
분포 형태 | or p = 0.5 에 가까우면, 정규분포에 가까움 이 크면 |
λ 가 크면 정규분포에 가까움 | |
독립성 | 단일 시행에서는 독립성의 개념이 적용되지 않음 |
각 시행이 독립적 | 시간/공간 내 사건 간 독립적 |
[이산확률분포 간 관계]
- 베르누이 → 이항:
- 베르누이 시행을 n번 반복하면 이항분포를 얻음
- 베르누이 분포는 이항분포의 특수한 형태로, n=1일 때 이항분포와 동일
- 이항 → 포아송:
- 시행 횟수 n이 매우 크고 성공 확률 p이 매우 작아 np = λ (기대값)이 일정할 때, 이항분포는 포아송분포로 근사
- 포아송분포는 이항분포의 극한 형태로 볼 수 있음
- 베르누이 ↔ 포아송:
- 베르누이는 단일 사건에 초점을 맞추는 반면, 포아송은 여러 사건의 발생 횟수를 다룸
베르누이 분포
확률질량함수(PMF)
- 평균(기대값)
E(X) = p
- 분산
Var(X) = p(1−p)
이항분포(Binomial Distribution)
확률질량함수(PMF)
- 모수인 시행횟수 n과 성공확률 p의 값에 따라 결정
- 좌우대칭의 종모양을 나타내는 경우
1) 성공확률 p = 0.5 에 가까우면 시행횟수 n 크기에 관계없이
2) 시행횟수 n 이 크면 성공확률 p 크기에 관계없이
- 평균(기대값)
E(X) = np
- 분산
Var(X) = np(1−p)
- 꼬리분포 : 성공 확률의 극단적인 경우(좌측 꼬리 또는 우측 꼬리)에 해당하는 확률을 분석하는 데 사용
p = 0.5 에 가까우면, 정규분포에 가까움
p < 0.5 (실패가 더 자주 발생)이고 n이 작은 경우 오른쪽 꼬리분포
p > 0.5 이고 n이 작은 경우 왼쪽 꼬리분포
포아송분포, Poisson Distribution
확률질량함수(PMF)
- 고정된 시간 또는 공간 내에서 사건이 발생하는 희소 사건(드물게 발생하는 사건)을 다루는 데 적합함
- 구간 내에서 사건이 발생할 확률은 일정함
- : 특정 시간 또는 공간에서 발생한 사건의 횟수
- λ: 주어진 시간/공간 내에서의 평균 발생 횟수(기대값)
- x: 실제로 발생한 사건의 횟수
- e: 자연상수(약 2.718)
- 평균(기대값), 분산
E(X) = Var(X) = λ
- 꼬리분포
λ 값이 커질 수록 정규분포에 가까움
ex) 한 시간 동안 특정 웹사이트에 방문자가 평균 5명 들어오는 경우(기대값 λ=5), 한 시간 동안 방문자가 정확히 3명일 확률
참고 사이트)
'Data Science > 이론' 카테고리의 다른 글
DS 이론09- 선형회귀분석 (0) | 2024.11.20 |
---|---|
DS 이론07~08-추론통계(점/구간추정),상관분석 (0) | 2024.11.19 |
DS 이론 06- 연속확률분포(지수,정규,t,카이제곱,f) (0) | 2024.11.18 |
DS 이론 04- 확률실험, 베이즈정리 (1) | 2024.11.16 |
DS 이론 01~03- 변수, 일변량/다변량차트, 위치/변이/모양 통계량 (3) | 2024.11.16 |