AI
자연어와 단어의 분산 표현 - 통계 기반 기법 개선하기
상호 정보량 동시발생 행렬의 원소는 두 단어가 동시에 발생한 횟수를 나타낸다. '발생'횟수는 좋은 특징이 아니다. 고빈도로 눈을 돌려보면 이유를 알 수 있다. 예) "the", "car"동시발생 "drive"보다 "car"는 "the"와 강한 관련성을 가진다고 나온다. - "the"고빈도 단어라서 이러한 문제 해결 - 접려 상호 정보량(Pointwise Mutual Information)(PMI)이라는 척도 이용 PMI는 확률 변수 x와 y에 대해 정의 pmi 수식 P(x)는 x가 일어날 확률, P(y)는 y가 일어날 확률, P(x, y)는 x와 y가 동시에 일어날 확률을 뜻한다. PMI값이 높을수록 관련성이 높다는 의미다. 예) 10,000개의 단어로 이루어진 말뭉치에서 "the"가 100번 등장한다면..
2020. 12. 29. 18:49
최근댓글