Data Science/이론

DS 이론 04- 확률실험, 베이즈정리

에너지_2 2024. 11. 16. 15:33
728x90
반응형

 

 

※ 학습자료 정리한 내용입니다.

확률

  1. 확률 : 0~1 사이의 값. 합은 1
    • 확률을 계산하는 문제가 나올 수 있음
    • Q. 전체 중에서 몇번 나왔나?  
  2. 확률실험 (E) = 확률시행: 다음 3가지를 만족할 때 **
    • 결과는 알 수 없음 ex) 동전을 던지면, 앞면이 나올지 뒷면이 나올지 알 수 없음
    • 결과로 나타날 수 있는 가능한 경우들은 알고 있음 ex 동전을 던지면, 앞면 or 뒷면이 나옴
    • 동일한 실험을 반복할 수 있음 ex) 동전 던지는 실험은 반복 가능
  3. 표본공간(S: sample)
    • 확률시험으로 출현 가능한 모든 결과들의 모임
    • S={H,T} ->  S=동전 던지기 표본공간, H:앞면, T:뒷면
  4. 사건
    • 표본공간의 각 원소들의 부분집합 {H}, {T}
    • 근원사건: 어떤 사건이 표본공간 상의 하나의 원소로 구성된 사건 {H} or {T}
  5. 사건의 연산 **
    1. 합사건 = 덧셈 법칙
      • $$P(A\cup B)=P(A)+P(B)-P(A\cap B)$$
      • 배반사건인 경우
        • $$P(A\cup B)=P(A)+P(B)$$
        • $$P(A\cap B)=P(A)*P(B)$$
    2. 곱셈 법칙
      • $$P(A\cap B)=P(A)*P(B|A)=P(B)*P(A|B)$$
      • 독립인 경우
        • $$P(A)=P(A|B)=P(A|B^{c})$$
        • $$P(A\cap B)=P(A)*P(B)$$

- 사건 A와 B가 독립적이라면, 조건부 확률은 P(A∣B)=P(A)P(A | B) = P(A)이고,  P(B∣A)=P(B)P(B | A) = P(B)입니다.

 

베이즈 정리 **

사전확률과 조건부확률로 사후확률을 구함

  1. 조건부 확률 : 표본공간을 전사건 S에서 사건 A로 축소
    • A가 발생한 상황에서 B가 발생할 확률 = P(B|A)
    • | 있다고 무조건 조건부 확률은 아님

 

  • : 사건 B가 주어졌을 때 사건 A가 일어날 조건부 확률, 사후 확률
  • P(B∣A): 사건 A가 주어졌을 때 사건 B가 일어날 조건부 확률
  • P(A): 사건 A의 사전 확률 (사건 A가 일어나기 전의 확률, 사건의 원인을 제공)
  • P(B): 사건 B의 전체 확률 (사건 B가 일어날 확률)

예시: 질병 진단

어떤 질병에 대한 검사에서 양성 결과가 나왔다고 가정해 봅시다.

이 경우, 검사 결과가 양성일 때 실제로 그 사람이 질병에 걸렸을 확률을 구할 수 있습니다.

문제 설정:

  • P(A): 특정 질병에 걸릴 확률 (사전 확률), 예를 들어 0.1% (0.001)
  • P(B∣A): 질병에 걸린 사람이 검사에서 양성 결과가 나올 확률 (검사의 민감도), 예를 들어 99% (0.99)
  • P(B∣~A): 질병에 걸리지 않은 사람이 검사에서 양성 결과가 나올 확률 (위양성률), 예를 들어 5% (0.05)
  • P(~A): 질병에 걸리지 않은 사람의 확률, 예를 들어 99.9% (0.999)

우리는 검사에서 양성 결과가 나왔을 때 실제로 그 사람이 질병에 걸렸을 확률 P(A∣B)을 구하고자 합니다.

위에서 나오지 않은 값으로 P(B) 를 구하기 위해 아래와 같이 계산한다.

 P(B) = 전체 양성 결과 = 질병에 걸린 사람이 양성 결과를 얻을 확률 + 질병에 걸리지 않은 사람이 양성 결과를 얻을 확률

  • P(B) = P(B∣A)⋅P(A) + P(B∣~A)⋅P(~A)

베이즈 정리에 대입하면, P(A|B) 사후확률에 대한 값, 0.02 (2%) 가 나온다.

즉, 검사에서 양성 결과가 나왔떠라도 실제로 그 사람이 질병에 걸렸을 확률은 매우 낮다고 추론할 수 있다.


추후 나오는 내용 중 나이브베이즈분류는 이 베이즈정리를 기반으로 사후확률을 추론한다.

 

2024.12.08 - [Data Science/이론] - DS 이론 22- 나이브베이즈분류, 예제

 

DS 이론 22- 나이브베이즈분류, 예제

https://sometipsfor.tistory.com/39 DS 실습 16- 나이브 베이즈- 사전 확률 및 추가 정보를 기반으로 사후 확률을 추론하는 통계적 방법인 베이즈 추정 기반 분류- 종속변수 각 범주의 등장 빈도인 사전확

sometipsfor.tistory.com

 

 

728x90
반응형