[t:/]$ 지식_

Information Value와 MINHash Bucket 크기와의 관계

2018/02/01

작업 노트. 본 내용엔 추정이 섞여있으므로 모두 True로 증명되지 않았음.

IV는 일종의 feature importance로 사용할 수 있다. 예컨데, IV가 작은 애들을 쓰레시홀드로 컷해서 feature selector의 용도로 쓸 수도 있다.

막상 돌려보니 IV적용과 미적용의 힛트율 갭이 해시 버킷 크기가 적을 수록 컸다. 즉, 작은 버킷 크기로도 IV를 이용하면 준수한 힛트율을 얻을 수 있다는 것이다. 버킷 크기를 줄이면 컬리젼 확률은 올라가는데, IV가 피쳐의 우수성을 보완해준다.

지금 실험 결과로만 보면 중구난방인 것이 많은데, IV와 버킷크기와의 관계만이 눈으로 관측된다.









[t:/] is not "technology - root". dawnsea, rss