포장빵의 IT

딥러닝 - 딥러닝의 초기 역사

AI / 포장빵 / 2020. 12. 17. 01:26

728x90

딥러닝의 초기 역사

딥러닝이 지금처럼 큰 주목을 받게 된 계기는 이미지 인식 기술을 겨루는 장인 ILSVRC(ImageNetLarge Scale Visual Recognition Challenge)의 2012년 대회다. 그 해의 대회에서 딥러닝 기초 기법 AlexNet이 압도적인 성적으로 우승해 그 동안의 이미지 인식에 대한 접근법을 뿌리부터 뒤흔들었다.

이미지넷(ImageNet)

100만 장이 넘는 이미지를 담고 있는 데이터셋이다.
아래 그림과 같은 다양한 종류의 이미지를 포함해 각 이미지에는 레이블(클래스 이름)이 붙어 있다.

대규모 데이터셋 ImageNet의 데이터들

[그림1] 대규모 데이터셋 ImageNet의 데이터들

2010년부터 2016년까지 ILSVRC의 분류 부분 우승팅의 성적 톱-5 오류

[그림2] ILSVRC 분류 부분 최우수팀

2012년 이후 선두는 모두 딥러닝
GoogLeNet, VGG, ResNet은 특히 유명하다.

VGG

합성곱 계층과 풀링 계층으로 구성되는 '기본적'인 CNN이다.

VGG

[그림3] VGG

3x3의 작은 필터를 사용한 합성곱 계층을 연속으로 거친다.
합성곱 계층을 2~4회 연속으로 풀링 계층을 두어 크기를 절반으로 줄이는 처리를 반복한다.
마지막에는 완전연결 계층을 통과시켜 결과를 출력한다.
VGG는 구성이 간단해 즐겨 사용한다.

GoogLeNet

구성이 복잡해 보이지만 기본적으로 CNN과 다르지 않다.
GoogLeNet은 세로 방향 깊이뿐 아니라 가로 방향도 깊다는 점이 특징이다.
GoogLeNet에는 가로 방향에 '폭'이 있다. 이를 인셉션 구조라 한다.

[그림4] GoogLeNet

GoogLeNet의 인셉션 구조

[그림5] GoogLeNet의 인셉션 구조

크기가 다른 필터(와 풀링)를 여러 개 적용해 그 결과를 결합한다.
인셉션 구조를 하나의 빌딩 블록(구성요소)으로 사용하는 것이 GoogLeNet의 특징이다.
GoogLeNet에서는 1x1 크기의 필터를 사용한 합성곱 계층을 많은 곳에서 사용한다.
- 1x1의 합성곱 연산은 채널 쪽으로 크기를 줄이는 것으로, 매개변수 제거와 고속 처리에 기여한다.

ResNet(Residual Network)

마이크로소프트 팀이 개발한 네트워크
특징은 지금까지보다 층을 더 깊게 할 수 있는 특별한 '장치'에 있다.
딥러닝 학습에서는 층이 지나치게 깊으면 학습이 잘 되지 않고 성능이 떨어지는 경우도 많지만 ResNet에서는 그런 문제를 해결하기 위해서 스킵 연결(skip connection)을 도입한다.

ResNet의 구성요소 : 'weight layer'는 합성곱 계층 의미

[그림6] ResNet의 구성요소

ResNet은 VGG 신경망을 기반으로 스킵 연결을 도입해 층을 깊게 했다.

ResNet : 블록이 3x3인 합성곱 계층에 대응, 층을 건너뛰는 스킵 연결이 특징

[그림7] ResNet 블록이 3x3

전이 학습(transfer learning)

이미지넷이 제공하는 거대한 데이터셋으로 학습한 가중치 값들은 실제 제품에 활용해도 효과적이고, 또 많이들 이용하고 있다. 이것을 전이 학습이라고한다.
학습된 가중치(혹은 그 일부)를 다른 신경망에 복사한 다음, 그 상태로 재학습을 수행한다.
- 예) VGG와 구성이 같은 신경망을 준비하고, 미리 학습된 가중치를 초깃값으로 설정한 후, 새로운 데이터셋을 대상으로 재학습(fine tuning)을 수행한다.
- 전이 학습은 보유한 데이터셋이 적을 때 특히 유용한 방법이다.

출처 : 밑바닥부터 시작하는 딥러닝

https://www.hanbit.co.kr/store/books/look.php?p_code=B8475831198

밑바닥부터 시작하는 딥러닝

직접 구현하고 움직여보며 익히는 가장 쉬운 딥러닝 입문서

www.hanbit.co.kr

728x90

저작자표시 비영리 변경금지

AI 관련 글

글 더보기

티스토리툴바