word2vec - word2vec 보충

AI / / 2020. 12. 31. 01:42
728x90
반응형

CBOW 모델과 확률

  • A라는 현상이 일어날 확률을 P(A)라고 한다.
  • 동시 확률은 P(A,B)로 쓴다.
  • 사후 확률은 P(A|B)로 쓴다.
    • 사후 확률은 '사건이 일어난 후의 확률'이다.
    • 'B'라는 정보가 주어졌을 때 A가 일어날 확률이라고 해석도 가능하다.

 

[그림1] word2vec의 CBOW 모델

 

wt-1과 wt+1이 주어졌을 때 타깃이 wt가 될 확률의 수식

[그림2] wt확률 수식

 

  • wt-1과 wt+1이 일어난 후 wt가 일어날 확률을 뜻한다.

 

CBOW 모델의 손실 함수 간결하게 표현

[그림3] CBOW 모델 손실 함수 수식

  • 음의 로그 기능도(negative log likelihood)라고 한다.
  • 샘플 데이터 하나에 대한 손실 함수

 

말뭉치 전체에 대한 손실 함수

[그림4] 말뭉치 전체에 대한 손실 함수

 

 

skip-gram 모델

  • word2vec은 2개 모델 제안
    • CBOW모델
    • skip-gram모델
  • CBOW에서 다루는 맥락과 타깃을 역전시킨 모델

 

 

CBOW 모델과 skip-gram 모델이 다루는 문제

[그림5] CBOW 모델과 skip-gram 모델

 

skip-gram 모델의 신경망 구성 예

[그림6] skip-gram 모델의 신경망 구성 예 

 

  • skip-gram 모델의 입력층은 하나다.
  • 출력층은 맥락의 수만큼 존재한다.

 

skip-gram 모델 확률 표기

[그림7] skip-gram 모델

  • 'wt'가 주어졌을 때 'wt-1'와 'wt+1'이 동시에 일어날 확률을 뜻한다.

 

skip-gram 에서는 맥락의 단어들 사이에 관련성이 없다고 가정하고 아래 그림과 같이 분해한다.

[그림8] 수식 분해

 

교차 엔트로피 오차 적용

[그림9] 교차 엔트로피 오차 적용

 

말뭉치 전체 확장

[그림10] 말뭉치 전체 확장

  • skip-gram 모델은 맥락의 수만큼 추측하기 때문에 그 손실 함수는 각 맥락에서 구한 손실의 총합이어야 한다.
  • CBOW 모델은 타깃 하나의 손실을 구한다.
  • skip-gram 모델이 더 사용하기 좋다. 정밀도 면에서 결과가 더 좋기 때문

 

통계기반 vs 추론 기반

  • 통계 기반 기법은 말뭉치의 전체 통계로부터 1회 학습해 단어의 분산 표현을 얻는다.
  • 추론 기반 기법은 미니배치 학습 - 말뭉치의 일부분씩 학습해 단어의 분산 표현을 얻는다.

단어의 분산 표현을 갱신해야 할 경우

  • 통계 기반 기법에서는 계산을 처음부터 다시 해야한다.
  • 추론 기반 기법은 매개변수를 다시 학습할 수 있다.
  • 이러한 점에서는 추론 기반 기법(word2vec)이 우세하다.

두 기법으로 얻는 단어의 분산 표현이나 정밀도

  • 통계 기반 기법에서는 주로 단어의 유사성이 인코딩된다.
  • word2vec(특히 skip-gram)에서는 단어의 유사성은 물론, 한층 복잡한 단어 사이의 패턴까지도 파악되어 인코딩된다.
  • 이러한 이유 때문에 추론 기반 기법이 더 정확하다고 생각하지만, 단어의 유사성을 정량 평가해본다면 추론 기반과 통계 기반 기법의 우열을 가릴 수 없다. 

 

 

출처 : 밑바닥부터 시작하는 딥러닝2

https://www.hanbit.co.kr/store/books/look.php?p_code=B8950212853

 

밑바닥부터 시작하는 딥러닝 2

이 책은 『밑바닥부터 시작하는 딥러닝』에서 다루지 못했던 순환 신경망(RNN)을 자연어 처리와 시계열 데이터 처리에 사용하는 딥러닝 기술에 초점을 맞춰 살펴본다. 8장 구성으로 전체를 하나

www.hanbit.co.kr

 

728x90
반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기