-
- 나이브베이즈 분석
- 예측변수의 값 : 사전에 알고 있는 정보
- 어떤 사건이 발생할 조건부 확률 : 예측변수의 값이 주어졌을 때 우리가 관심을 갖는 특정 범주가 발생할 확률
- 각 케이스별로 사건발생의 예측확률이 계산되면 이 값을 사전에 설정한 임계값과 비교하여 그보다 크면 사건 발생으로, 그렇지 않으면 사건 미발생으로 분류
- 예를 들면, 임계값을 0.5로 했을 때 도출된 예측확률이 0.5보다 크면 사건이 발생하고 0.5보다 작으면 사건이 발생하지 않는 것으로 예측
- 나이브베이즈는 예측변수 가운데 하나라도 0의 확률을 가지고 있으면 전체의 조건부 확률이 0이 된다.
- 해결책 : 라플라스 추정치를 이용하여 해결
- 라플라스 추정치 : 훈련 데이터의 각 빈도값에 작은 값을 더한다.
- 라플라스 추정치는 1로 설정되며, 이는 모든 결과변수 범주와 예측변수 범주의 조합이 최소한 한번이상 발생하도록 보장.
- 나이브베이즈 이슈 :
- 예측변수는 모두 범주형 변수이어야 함
- 훈련 데이터에 연속형 변수가 포함되어 있을 경우에는 우선 연속형 변수를 몇 개의 구간으로 나누어 범주형 변수로 변환
- 나이브베이즈는 현실과 다소 다른 가정을 하고 있다는 단점
- 예측변수들이 서로 독립이며 모두 동일하게 중요하다고 가정
- 현실에서는 예측변수들이 서로 완전히 독립일 수 없으며 어떤 변수는 다른 변수보다 결과변수를 예측하는 데 있어서 더 중요한 역할을 함.