728x90
반응형
토큰화
- 첫 번째 단계는 텍스트를 정제하고 토큰화한다.
- 토큰화는 텍스트를 단어나 문자와 같은 개별 단위로 나누는 작업이다.
- 텍스트 생성 모델로 만들려는 종류에 따라 텍스트 토큰화 방법이 달라진다.
- 단어나 문자 토큰은 각기 장단점이 있다.
단어 토큰의 경우
- 모든 텍스트를 소문자로 변환한다.
- 어휘 사전이 매우 클 수 있다.
- 단어에서 어간(STEM)을 추출할 수 있다.
- 구두점(마침표와 쉼표)을 토큰화하거나 모두 제거해야 한다.
- 단어 토큰화를 사용하면 훈련 어휘 사전에 없는 단어는 모델이 예측할 수 없다.
문자 토큰의 경우
- 모델이 시퀀스를 생성해 훈련 어휘 사전에 없는 새로운 단어를 만들 수 있다.
- 대문자는 소문자로 바꾸거나 별도의 토큰으로 남겨둘 수 있다.
- 문자 토큰화를 사용하면 어휘 사전은 비교적 매우 작다. - 훈련 속도에 유리
데이터셋 구축
- LSTM 네트워크는 단어의 시퀀스가 주어지면 이 시퀀스의 다음 단어를 예측하도록 훈련된다.
- 예) 'the greedy cat and the' 토큰을 주입하면 모델이 적절한 다음 단어를 출력할 것이다.(가령 'in' 대신 'dog')
- 모델 훈련에 사용할 시퀀스 길이는 훈련 하이퍼파라미터다.
임베딩 층
- 임베딩층은 기본적으로 각 토큰을 embedding_size 길이의 벡터로 변환하는 룩업 테이블이다.
- 따라서 이 층에서 학습되는 가중치의 개수는 어휘 사전의 크기에 embedding_size를 곱한 값이다.
LSTM 층
- 순환 층은 순차적인 입력 데이터[x1,...xn)를 처리할 수 있는 특별한 구조를 가지고 있다.
- 순환 층은 셀로 구성된다.
- 은닉 상태 ht는 한 번에 한 타임스텝 씩 시퀀스 xt의 각 원소를 셀로 전달해 업데이트한다.
- 은닉 상태는 셀 안에 있는 유닛의 개수와 길이가 동일한 벡터다.
- 은닉 상태는 셀을 통과하여 흘럼감에 따라 계속 업데이트된다.
http://www.yes24.com/Product/Goods/81538614?OzSrank=1
728x90
반응형
최근댓글