포장빵의 IT

미술관에 GAN 딥러닝 실전 프로젝트 - 6.3 - 첫 번째 LSTM 네트워크

AI / 포장빵 / 2021. 11. 15. 05:02

728x90

토큰화

첫 번째 단계는 텍스트를 정제하고 토큰화한다.
토큰화는 텍스트를 단어나 문자와 같은 개별 단위로 나누는 작업이다.
텍스트 생성 모델로 만들려는 종류에 따라 텍스트 토큰화 방법이 달라진다.
단어나 문자 토큰은 각기 장단점이 있다.

단어 토큰의 경우

모든 텍스트를 소문자로 변환한다.
어휘 사전이 매우 클 수 있다.
단어에서 어간(STEM)을 추출할 수 있다.
구두점(마침표와 쉼표)을 토큰화하거나 모두 제거해야 한다.
단어 토큰화를 사용하면 훈련 어휘 사전에 없는 단어는 모델이 예측할 수 없다.

문자 토큰의 경우

모델이 시퀀스를 생성해 훈련 어휘 사전에 없는 새로운 단어를 만들 수 있다.
대문자는 소문자로 바꾸거나 별도의 토큰으로 남겨둘 수 있다.
문자 토큰화를 사용하면 어휘 사전은 비교적 매우 작다. - 훈련 속도에 유리

데이터셋 구축

LSTM 네트워크는 단어의 시퀀스가 주어지면 이 시퀀스의 다음 단어를 예측하도록 훈련된다.
- 예) 'the greedy cat and the' 토큰을 주입하면 모델이 적절한 다음 단어를 출력할 것이다.(가령 'in' 대신 'dog')
모델 훈련에 사용할 시퀀스 길이는 훈련 하이퍼파라미터다.

임베딩 층

임베딩층은 기본적으로 각 토큰을 embedding_size 길이의 벡터로 변환하는 룩업 테이블이다.
따라서 이 층에서 학습되는 가중치의 개수는 어휘 사전의 크기에 embedding_size를 곱한 값이다.

LSTM 층

순환 층은 순차적인 입력 데이터[x1,...xn)를 처리할 수 있는 특별한 구조를 가지고 있다.
순환 층은 셀로 구성된다.
은닉 상태 ht는 한 번에 한 타임스텝 씩 시퀀스 xt의 각 원소를 셀로 전달해 업데이트한다.
은닉 상태는 셀 안에 있는 유닛의 개수와 길이가 동일한 벡터다.
은닉 상태는 셀을 통과하여 흘럼감에 따라 계속 업데이트된다.

http://www.yes24.com/Product/Goods/81538614?OzSrank=1

미술관에 GAN 딥러닝 실전 프로젝트 - YES24

창조에 다가서는 GAN의 4가지 생성 프로젝트 이 책은 케라스를 사용한 딥러닝 기초부터 AI 분야 최신 알고리즘까지 설명한다. 기계 스스로 그림을 그리고, 글을 쓰고, 음악을 작곡하고, 게임을 하

www.yes24.com

728x90

저작자표시 비영리 변경금지

AI 관련 글

글 더보기

티스토리툴바