-
의사결정나무 개요
- 의사결정나무는 데이터셋을 반복적으로 분할하는 과정을 통해 생성
- 데이터셋을 서브셋으로 분할하는 작업을 반복하여 서브셋 내의 데이터가 충분히 서로 동질적일 때까지 분할작업을 반복
- 의사결정나무는 분할과정을 나타낸 의사결정규칙을 나뭇가지 모양으로 도식화하며, 의사결정나무의 각 가지의 끝(즉 잎)은 분류판정을 나타냄
- 나무의 구조는 선택되는 가지에 따라 결정되는 결과 또는 귀속범주를 보여주며, 따라서 이러한 의사결정나무의 가지 구조를 바탕으로 새로운 케이스에 대한 분류(분류나무)와 예측(회귀나무)을 수행
의사결정나무분석 절차
- 데이터를 두 개의 집단으로 가장 잘 분할하는 예측변수와 분할점을 선택
- 이때 두 집단의 동질성 또는 순도가 최대화되도록 하는 예측변수와 분할점을 선정
- 예측변수와 분할점을 이용하여 데이터를 두 개의 집단으로 분할
- 분할작업은 동질성이 일정 기준 이상으로 증가하지 않을 때까지 반복
- 마지막 단계의 집단을 최종노드 또는 리프노드 라고 함
- 최종노듸 귀속범주는 포함된 케이스들이 속한 범주의 상대적 빈도에 따라 결정
동질성 측정지표
- 엔트로피 → 두 개의 범주만 있는 경우 엔트로피는 최소 0에서 최대 1까지의 값을 갖는다.
- 정보이론에서 엔트로피는 집단 내의 무작위성이나 무질서를 계량화하는 척도로서 이질성의 정도를 측정
- 어떤 집단의 엔트로피가 높다는 것은 그 집단이 매우 이질적인 케이스들로 구성되어 있다는 것을 나타내며, 이는 그 집단에 속한 케이스들의 범주가 다양하다는 거을 의미
- 최적의 분할을 가져오는 예측변수와 분할점을 찾기 위해 분할에 의해서 발생하는 동질성의 변화량을 계산하며, 이를 정보이득 이라고 함.
정보이득
- 어떤 예측변수에 대한 정보이득은 분할 전 서브셋의 엔트로피와 분할 후 생성된 서브셋에서의 엔트로피의 차이로 계산된다.
- 일단 분할이 이루어지면 전체 데이터셋은 두 개 이상의 서브셋으로 구성되기 때문에 분할 후의 엔트로피는 이들 모든 서브셋에서의 엔트로피를 합산하여 산출해야 한다.
- 정보이득이 클수록 예측변수는 데이터셋을 동질적인 집단으로 잘 분할하고 있다는 것을 나타냄
- 정보이득이 0이면(즉 최소 정보이득) 분할 후에는 엔트로피의 개선(즉 감소)이 없다는 뜻이고, 이는 해당 예측변수의 선택이 적절하지 않다는 것을 의미
- 반면에 정보이득이 분할 전의 엔트로피와 같다면(즉 최대 정보이득) 분할 후의 엔트로피는 0이라는 뜻이고, 이는 분할을 통해 생성한 서브셋이 완전히 동질적(즉 같은 범주에 속한 케이스들로만 구성) 이라는 것을 의미