파이토치로 배우는 자연어 처리 - 1.1 - 지도 학습

728x90

지도 학습 시스템의 주요 개념을 6개로 나눌 수 있다.

지도 학습의 목적은 주어진 데이터셋에서 손실 함수를 최소화하는 파라미터 값을 고르는 것이다.
경사 하강법(gradient descent)은 식의 근을 찾는 일반적인 방법이다.
전통적 확률 경사 하강법에서는 근(파라미터)의 초깃값을 추측한 다음 목적 함수(objective function)(손실 함수)의 값이 수용할만한 임계점 아래로 내려갈 때까지 반복해 업데이트한다. - 데이터 크기에 따라 메모리 제약
확률적 경사 하강법(stochastic gradient descent(SGD)는 데이터 포인트를 하나 또는 일부 랜덤 하게 선택해 그레디언트를 계산한다.
파라미터를 연속적으로 업데이트하는 과정을 역전파(backpropagation)라고 부른다.
역전파의 각 단계(또는 에포크 epoch)는 정방향 계산(forward pass)과 역방향 계산(backward pass)으로 구성된다.
정방향 계산은 현재 파라미터 값으로 입력을 평가해 손실 함수를 계산한다.
역방향 계산은 손실의 그레이디언트를 사용해 파라미터를 업데이트한다.