[t:/]$ 지식_

word2vec의 벡터값 이해하기

2017/09/07

수학이나 머신러닝 알못이므로 이해한 바대로 요약해본다. 온라인에 등장하는 문서들은 너무 길고 어렵다.

word2vec의 결과로 단어마다 벡터값이 나온다. 벡터의 길이는 정하기 나름이며 spark에서는 100이다.

word2vec의 결과로 나오는 벡터의 값들은 다차원 공간의 각각의 성분의 강도라고 이해하면 될 것 같다. 예를 들어 다음과 같은 결과를 보자.

나이키 : 벡터 = [ 1, 2, 3 ]

나이키라는 단어를 word2vec으로 돌렸더니 1,2,3이 나왔다. 온라인 쇼핑몰의 상품명에서 word2vec을 돌렸다고 치면 1, 2, 3이 각각 [ 스포츠의류, 운동화, 신발 ]의 성분으로 분류됐을 가능성이 있다. 여기서 가능성이라는 것은 그저 예시다. 모든 문서들을 돌고 왔더니 상품명들이 저런 성분으로 관련성을 가질수 있다는 것이다. 벡터의 길이를 길게 잡으면 더욱 구체적인 성분으로 벡터가 발산할 것이다.









[t:/] is not "technology - root". dawnsea, rss