https://sometipsfor.tistory.com/39
- Feature 들이 확률적으로 '독립'이라는 가정으로 확률 계산을 용이하게 함
- 베이즈 법칙 (확률)에 기반한 분류 기법
2024.11.16 - [Data Science/이론] - DS 이론 2- 확률실험, 베이즈정리
... 베이즈 법칙을 알면 나이브베이즈분류 이해가 쉬움
베이즈 정리
- P(A) : 사전확률 - 사건 B가 일어나기 전 사건. A가 일어날 확률 (이미 알고 있는 사건의 확률)
- P(B) : 증거, 한계 우도 - B가 발생할 확률
- P(A | B) : 사후확률 - 나중에 일어날 사건으로 B가 발생한다고 했을 때 A가 일어날 확률
- P(B | A) : 가능도(우도, likehood) - 먼저 일어날 사건으로 A가 발생한다고 했을 때 B가 일어날 확률 .
=> P(B) 를 계산하지 않아도 되는 것이 나이브 베이즈!!!
P(A|B) = P(B|A) *P(A)
- 나이브베이즈는 확률 기반이지만, 나이브 베이즈의 이진분류 결과 값을 더하면 1이 되진 않음. 베이즈법칙은 1이 됨
'나이브' : 단순한. 모자르다.
-> 그렇기 때문에, 나이브베이즈는 꼭 끝까지 계산을 다 해서 예측해야 함
- 나이브베이즈는 사후확률을 추정하는 기법!
- 이진분류(Y or N)라면, 조건부확률 Y 확률값 과 N 확률값을 구해서 높은 값을 찾음
P( Y | X ) = 0.75
P( N | X ) = 0.10
-> P(Y | X) 값이 더 크므로, X가 발생한다고 했을 때 Y 가 발생한다고 예측할 수 있음. 정답!
나이브 베이즈 분류기
스팸메일 필터링 등 텍스트 분석
컴퓨터 네트워크 침입, 비정상 행위 탐지
일련의 관찰된 증상에 대한 의학적 질병진단
장점
- 가장 단순한 지도 학습. 빠르고 정확한 모델
- computation cost 가 작은 기법
- 잡음, 누락 등에 강함 - 적은 양의 데이터로도 상당한 정확도를 보여줌
- 대량 데이터 세트에서도 빠른 속도를 나타냄
- 연속형 데이터 < 이산형 데이터 : 높은 성능
- 멀티클래스에도 사용 가능
: 2개 이상의 클래스를 예측할 수 있다. 단순한 이진분류(Y /N)가 아니라 여러분류(A,B,C)를 가질 수 있다
- 각 Feature 끼리 서로 독립이라는 조건을 가정하나, 독립성 가정을 대부분 위배함
- 모든 특징이 동등하게 중요함
- 연속형 수치 데이터가 많은 경우 이산화 필요 ex) 구간화 시킴 160 < x < 169
- 조건부 확률이 0이 되는 문제 존재 (방지하기 위해 상수항 사용)
- 데이터 사이즈가 작으면 과적합 발생
'Data Science > 이론' 카테고리의 다른 글
DS 이론 24- 군집분석, 비계층적 K-means (0) | 2024.12.10 |
---|---|
DS 이론 23- 의사결정나무,앙상블-랜덤포레스트 (0) | 2024.12.10 |
DS 이론 21- KNN 알고리즘 (0) | 2024.12.08 |
DS 이론19~20- 선형회귀분석(머신러닝),로지스틱 회귀분석* (0) | 2024.12.03 |
DS 이론16~18-머신러닝, 특성공학(Under/Over fitting, 모델평가기법) (0) | 2024.12.02 |