Terms – information, bit

By | Y2016Y2016-3M-ȭD
  • related material: 『Data Mining』-written by Ian H. Witten
  • Category: Divide and conquer technique: Decision Tree

Information Caculating (Decision Tree)

  • Rules
    1. yes or no 둘 중 하나라도 0일 경우 information value 는 0
    2. yes & no 가 동일한 값이면 max information value 가 된다.
    3. 정보는 단계적(multistage) 속성을 따른다.
  • 예를 들면 info([2,3,4]) 의 경우,데이터가 2 또는 7(=3+4) 에 속한다고 보면
    1. info([2,7]) 에서 데이터가 7 에 속한다고 하면, 이 데이터는
    2. info([3,4]) 중 하나에 속한다고 볼 수 있다.
    3. 어떤 경우(info([2,7]) 중 2에 속하는 경우) 에는 두 번째까지 갈 필요가 없다
    4. 따라서 공식은
      info([2,3,4])=info([2,7])+(7/9)×info([3,4])
    5. 이러한 모든 속성이 설명되는 함수를 information vluae 또는 entropy 라 하고, log2pn 으로 나타내는 bit 라 칭한다.
      • entropy(p1,p2,…,pn)=-p1logp1-p2logp2…-pnlogpn
      • info([2,3,4])=entropy(2/9,3/9,4/9)
      • entropy(p,q,r)=entropy(p,q+r)+(q+r)×entropy(q/q+r,r/q+r)
        단, p+q+r=1
      • info([2,3,4])=entropy(2/9,3/9,4/9)
        =-2/9×log2/9-3/9×log3/9-4/9×log4/9=[-2log2–3log3-4log4+9log9]/9
    6. wether play list 내의 정보 측정치는 다음과 같다.
      • info([2,3])=-2/5×log2/5-3/5×log3/5=0.971bit
        (sunny-yes 의 경우)
      • sunny_yes

1,462 total views, 1 views today

댓글 남기기