728x90
반응형

토큰화

  • 첫 번째 단계는 텍스트를 정제하고 토큰화한다.
  • 토큰화는 텍스트를 단어나 문자와 같은 개별 단위로 나누는 작업이다.
  • 텍스트 생성 모델로 만들려는 종류에 따라 텍스트 토큰화 방법이 달라진다.
  • 단어나 문자 토큰은 각기 장단점이 있다.

 

단어 토큰의 경우

  • 모든 텍스트를 소문자로 변환한다.
  • 어휘 사전이 매우 클 수 있다.
  • 단어에서 어간(STEM)을 추출할 수 있다.
  • 구두점(마침표와 쉼표)을 토큰화하거나 모두 제거해야 한다.
  • 단어 토큰화를 사용하면 훈련 어휘 사전에 없는 단어는 모델이 예측할 수 없다.

 

문자 토큰의 경우

  • 모델이 시퀀스를 생성해 훈련 어휘 사전에 없는 새로운 단어를 만들 수 있다.
  • 대문자는 소문자로 바꾸거나 별도의 토큰으로 남겨둘 수 있다.
  • 문자 토큰화를 사용하면 어휘 사전은 비교적 매우 작다. - 훈련 속도에 유리

 

데이터셋 구축

  • LSTM 네트워크는 단어의 시퀀스가 주어지면 이 시퀀스의 다음 단어를 예측하도록 훈련된다.
    • 예) 'the greedy cat and the' 토큰을 주입하면 모델이 적절한 다음 단어를 출력할 것이다.(가령 'in' 대신 'dog')
  • 모델 훈련에 사용할 시퀀스 길이는 훈련 하이퍼파라미터다.

 

 

임베딩 층

  • 임베딩층은 기본적으로 각 토큰을 embedding_size 길이의 벡터로 변환하는 룩업 테이블이다.
  • 따라서 이 층에서 학습되는 가중치의 개수는 어휘 사전의 크기에 embedding_size를 곱한 값이다.

 

 

LSTM 층

  • 순환 층은 순차적인 입력 데이터[x1,...xn)를 처리할 수 있는 특별한 구조를 가지고 있다.
  • 순환 층은 셀로 구성된다.
  • 은닉 상태 ht는 한 번에 한 타임스텝 씩 시퀀스 xt의 각 원소를 셀로 전달해 업데이트한다.
  • 은닉 상태는 셀 안에 있는 유닛의 개수와 길이가 동일한 벡터다.
  • 은닉 상태는 셀을 통과하여 흘럼감에 따라 계속 업데이트된다.

 

 

 

 

 

 

 

 

 

 

http://www.yes24.com/Product/Goods/81538614?OzSrank=1

 

미술관에 GAN 딥러닝 실전 프로젝트 - YES24

창조에 다가서는 GAN의 4가지 생성 프로젝트 이 책은 케라스를 사용한 딥러닝 기초부터 AI 분야 최신 알고리즘까지 설명한다. 기계 스스로 그림을 그리고, 글을 쓰고, 음악을 작곡하고, 게임을 하

www.yes24.com

 

728x90
반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기