Data Science/이론

DS 이론 22- 나이브베이즈분류, 예제

에너지_2 2024. 12. 8. 21:59
728x90
반응형

https://sometipsfor.tistory.com/39

 

DS 실습 16- 나이브 베이즈

- 사전 확률 및 추가 정보를 기반으로 사후 확률을 추론하는 통계적 방법인 베이즈 추정 기반 분류- 종속변수 각 범주의 등장 빈도인 사전확률(prior) 설정이 중요   ex) "이전까지 이러이러한 빈

sometipsfor.tistory.com


- Feature 들이 확률적으로 '독립'이라는 가정으로 확률 계산을 용이하게 함

 

- 베이즈 법칙 (확률)에 기반한 분류 기법

2024.11.16 - [Data Science/이론] - DS 이론 2- 확률실험, 베이즈정리

  ... 베이즈 법칙을 알면 나이브베이즈분류 이해가 쉬움

베이즈 정리

 

- P(A) : 사전확률 - 사건 B가 일어나기 전 사건. A가 일어날 확률 (이미 알고 있는 사건의 확률)

- P(B) : 증거, 한계 우도 - B가 발생할 확률

 

- P(A | B) : 사후확률 - 나중에 일어날 사건으로 B가 발생한다고 했을 때 A가 일어날 확률

- P(B | A) : 가능도(우도, likehood) - 먼저 일어날 사건으로 A가 발생한다고 했을 때 B가 일어날 확률

 

=> P(B) 를 계산하지 않아도 되는 것이 나이브 베이즈!!!

     P(A|B) = P(B|A) *P(A)


- 나이브베이즈는 확률 기반이지만, 나이브 베이즈의 이진분류 결과 값을 더하면 1이 되진 않음. 베이즈법칙은 1이 됨

   '나이브' : 단순한. 모자르다.

   -> 그렇기 때문에, 나이브베이즈는 꼭 끝까지 계산을 다 해서 예측해야 함

 

- 나이브베이즈는 사후확률을 추정하는 기법!

 - 이진분류(Y or N)라면, 조건부확률 Y 확률값 과 N 확률값을 구해서 높은 값을 찾음

 

     P( Y | X ) = 0.75

     P( N | X ) = 0.10

    -> P(Y | X) 값이 더 크므로, X가 발생한다고 했을 때 Y 가 발생한다고 예측할 수 있음. 정답!

 

 

나이브 베이즈 분류기

 

스팸메일 필터링 등 텍스트 분석

컴퓨터 네트워크 침입, 비정상 행위 탐지

일련의 관찰된 증상에 대한 의학적 질병진단

 

장점

- 가장 단순한 지도 학습. 빠르고 정확한 모델

- computation cost 가 작은 기법

- 잡음, 누락 등에 강함 - 적은 양의 데이터로도 상당한 정확도를 보여줌

- 대량 데이터 세트에서도 빠른 속도를 나타냄

- 연속형 데이터 < 이산형 데이터 : 높은 성능

- 멀티클래스에도 사용 가능

   : 2개 이상의 클래스를 예측할 수 있다.  단순한 이진분류(Y /N)가 아니라 여러분류(A,B,C)를 가질 수 있다

 

- 각 Feature 끼리 서로 독립이라는 조건을 가정하나, 독립성 가정을 대부분 위배

- 모든 특징이 동등하게 중요함

- 연속형 수치 데이터가 많은 경우 이산화 필요 ex) 구간화 시킴 160 <  x < 169

- 조건부 확률이 0이 되는 문제 존재 (방지하기 위해 상수항 사용)

- 데이터 사이즈가 작으면 과적합 발생

 

 

728x90
반응형