Terms-Information gain ratio

By | Y2016Y2016-3M-D
  • related material: 『Data Mining』-written by Ian H. Witten
  • Category: Divide and conquer technique: Decision Tree

Information Gain Ratio

: 결정 트리 구조에서, 한 속성에 대한 가지 생성은 정보 이득 값(information gain) 이 가장 큰 값을 통해 이루어진다. 하지만, 정보 이득 값이 도출 가능한 속성 값이 많은 속성을 선호하는 경향이 있어, 이를 상쇄하기 위해 이득비(gain ratio) 조정 인자를 사용한다.

이득비는 클래스의 어떤 정보도 무시한 상태에서 해당 속성의 데이터 집합을 분할 할 자식 노드의 개수와 크기를 고려해 유도된다.

아래 트리와 날씨 데이터에 의거, 날씨 정보에 대한 id code 의 분할 정보 가치(split infomation value) 와  이득 값(gain) 및 이에 따른 이득 비(gain ratio) 는 다음과 같이 구할 수 있다.

  • information(root of id code)=info([9,5])=-9/14xlog9/14-5/14xlog5/14=0.940 bit
  • gain(id code)=information(root of id code)-∑information(child node)
    =info([9,5])-0=info([9,5])=-9/14×log9/14-5/14×log5/14=0.940 bit
  • information value of child nodes=info([1,1,…,1])=-1/14l×log1/14×14
    <– Count of element in each chlid node =1, number of child node=14
  • gain ratio=gain/information value(entropy)=0.940/3.807=0.247 bit

gain_ratio

 

1,902 total views, 3 views today

One thought on “Terms-Information gain ratio

  1. Pingback: Terms-C4.5(Pseudo Decision Tree Guidance System) | bluecore's...

댓글 남기기