728x90
반응형
딥러닝의 초기 역사
- 딥러닝이 지금처럼 큰 주목을 받게 된 계기는 이미지 인식 기술을 겨루는 장인 ILSVRC(ImageNetLarge Scale Visual Recognition Challenge)의 2012년 대회다. 그 해의 대회에서 딥러닝 기초 기법 AlexNet이 압도적인 성적으로 우승해 그 동안의 이미지 인식에 대한 접근법을 뿌리부터 뒤흔들었다.
이미지넷(ImageNet)
- 100만 장이 넘는 이미지를 담고 있는 데이터셋이다.
- 아래 그림과 같은 다양한 종류의 이미지를 포함해 각 이미지에는 레이블(클래스 이름)이 붙어 있다.
대규모 데이터셋 ImageNet의 데이터들
2010년부터 2016년까지 ILSVRC의 분류 부분 우승팅의 성적 톱-5 오류
- 2012년 이후 선두는 모두 딥러닝
- GoogLeNet, VGG, ResNet은 특히 유명하다.
VGG
- 합성곱 계층과 풀링 계층으로 구성되는 '기본적'인 CNN이다.
VGG
- 3x3의 작은 필터를 사용한 합성곱 계층을 연속으로 거친다.
- 합성곱 계층을 2~4회 연속으로 풀링 계층을 두어 크기를 절반으로 줄이는 처리를 반복한다.
- 마지막에는 완전연결 계층을 통과시켜 결과를 출력한다.
- VGG는 구성이 간단해 즐겨 사용한다.
GoogLeNet
- 구성이 복잡해 보이지만 기본적으로 CNN과 다르지 않다.
- GoogLeNet은 세로 방향 깊이뿐 아니라 가로 방향도 깊다는 점이 특징이다.
- GoogLeNet에는 가로 방향에 '폭'이 있다. 이를 인셉션 구조라 한다.
GoogLeNet의 인셉션 구조
- 크기가 다른 필터(와 풀링)를 여러 개 적용해 그 결과를 결합한다.
- 인셉션 구조를 하나의 빌딩 블록(구성요소)으로 사용하는 것이 GoogLeNet의 특징이다.
- GoogLeNet에서는 1x1 크기의 필터를 사용한 합성곱 계층을 많은 곳에서 사용한다.
- 1x1의 합성곱 연산은 채널 쪽으로 크기를 줄이는 것으로, 매개변수 제거와 고속 처리에 기여한다.
ResNet(Residual Network)
- 마이크로소프트 팀이 개발한 네트워크
- 특징은 지금까지보다 층을 더 깊게 할 수 있는 특별한 '장치'에 있다.
- 딥러닝 학습에서는 층이 지나치게 깊으면 학습이 잘 되지 않고 성능이 떨어지는 경우도 많지만 ResNet에서는 그런 문제를 해결하기 위해서 스킵 연결(skip connection)을 도입한다.
ResNet의 구성요소 : 'weight layer'는 합성곱 계층 의미
- ResNet은 VGG 신경망을 기반으로 스킵 연결을 도입해 층을 깊게 했다.
ResNet : 블록이 3x3인 합성곱 계층에 대응, 층을 건너뛰는 스킵 연결이 특징
전이 학습(transfer learning)
- 이미지넷이 제공하는 거대한 데이터셋으로 학습한 가중치 값들은 실제 제품에 활용해도 효과적이고, 또 많이들 이용하고 있다. 이것을 전이 학습이라고한다.
- 학습된 가중치(혹은 그 일부)를 다른 신경망에 복사한 다음, 그 상태로 재학습을 수행한다.
- 예) VGG와 구성이 같은 신경망을 준비하고, 미리 학습된 가중치를 초깃값으로 설정한 후, 새로운 데이터셋을 대상으로 재학습(fine tuning)을 수행한다.
- 전이 학습은 보유한 데이터셋이 적을 때 특히 유용한 방법이다.
출처 : 밑바닥부터 시작하는 딥러닝
https://www.hanbit.co.kr/store/books/look.php?p_code=B8475831198
728x90
반응형
최근댓글