케라스 창시자에게 배우는 딥러닝 - 1.2 - 딥러닝 이전 : 머신 러닝의 간략한 역사

728x90

확률적 모델링(probabilistic modeling)

입력 데이터의 특성이 모두 독립적이라고 가정하고 베이즈 정리(Bayes' theorem)를 적용하는 머신 러닝 분류 알고리즘이다.
- 강한 또는 '순진한'(naive) 가정이다. 여기에서 이름이 유래되었다.
- 컴퓨터가 등장하기 수십 년 전에는 수작업으로 적용했다.(1950년대)
- 베이즈 정리와 통계의 토대는 18세기까지 거슬러 올라간다.

신경망의 핵심 아이디어는 아주 일찍 1950년대에 작게나마 연구되었지만 본격적으로 시작되기까지는 수십 년이 걸렸다.
- 대규모 신경망을 훈련시킬 수 있는 효과적인 방법을 오랜 기간 찾지 못했기 때문
1980년대 중반에 여러 사람들이 제각기 역전파 알고리즘 재발견하고 신경망에 이를 적용하면서 상황이 바뀌었다.
- 이 알고리즘은 경사 하강법을 사용해 연쇄적으로 변수가 연결된 연산을 훈련하는 방법
성공적인 첫 번째 신경망 애플리케이션은 1989년 벨 연구소(Bell Labs)에서 나왔다.
얀 르쿤(Yann LeCun)은 초창기 합성곱 신경망(Convolution neural network)과 역전파를 연결해 손글씨 숫자 이미지를 분류하는 문제를 적용했다.
- LeNet이라 부르는 이 신경망은 우편 봉투의 우편 번호 코드를 자동으로 읽기 위해 1990년대 미국 우편 서비스에 적용

현대적인 SVM의 공식은 1990년대 초 벨 연구소의 블라디미르 바프닉(Vladimir Vapnik)과 코리나 코르테스(Corinna Cortes)에 의해 개발되었고 1995년 공개되었다.
SVM은 분류 문제를 해결하기 위해 2개의 다른 범주에 속한 데이터 포인트 그룹 사이에 좋은 경계(decision boundary)를 찾는다.
결정 경계는 훈련 데이터를 2개의 범주에 대응하는 영역으로 나누는 직선이나 표면으로 생각할 수 있다.
대용랴야 데이터셋에 확장되기 어렵고 이미지 분류 같은 지각에 관련된 문제에서 좋은 성능을 내지 못했다.
얕은 학습 방법이기 때문에 지각에 관련된 문제에 SVM을 적용하려면 먼저 수동으로 유용한 표현을 추출해야 하는데(이런 걸 특성 공학(feature engineering)이라 한다) 이는 매우 어렵고 불안정하다.

결정 경계가 하나의 초평면(hyperplane)으로 표현될 수 있는 새로운 고차원 표현으로 데이터를 매핑한다.
초평면과 각 클래스의 가장 가까운 데이터 포인트 사이의 거리가 최대가 되는 최선의 결정 경계(하나의 분할 초평면)을 찾는다.
- 이 단계를 마진 최대화(maximizing the margin)라고 부른다.
- 이렇게 함으로써 결정 경계가 훈련 데이터셋 이외의 새로운 샘플에 잘 일반화되도록 도와준다.

약한 예측 모델인 결정 트리를 앙상블 하는 것을 기반으로 하는 머신 러닝 기법
이전 모델에서 놓친 데이터 포인트를 보완하는 새로운 모델을 반복적으로 훈련함으로써 머신 러닝 모델을 향상하는 방법인 그래디언트 부스팅(gradient boosting)을 사용한다.

빠르게 확산된 주된 이유는 많은 문제에서 더 좋은 성능을 내고 있기 때문
머신 러닝에서 가장 중요한 단계인 특성 공학을 완전히 자동화하기 때문에 문제를 더 해결하기 쉽게 만들어준다.
특성을 직접 찾는 대신 한 번에 모든 특성을 학습할 수 있다.
변환 능력은 모델이 모든 표현 층을 순차적이 아니라(즉 탐욕적(greedily) 방법이 아니라) 동시에 공동으로 학습하게 만든다.
공동 특성 학습 능력 덕택에 모델이 내부 특성 하나에 맞추어질 때마다 이에 의존하는 다른 모든 특성이 사람이 개입하지 않아도 자동으로 변화에 적응하게 된다.
모든 학습은 하나의 피드백 신호로 시작된다.
- 모델의 모든 변화는 최종 목표를 따라가게 된다.
- 얕은 모델을 탐욕적으로 쌓은 것보다 훨씬 강력하다.

특성 공학(feature engineering)

*************************

초평면

플로차트(Flowchart) - 순서도

앙상블(Ensemble)

그래디언트 부스팅(gradient boosting)

부스팅 알고리즘의 한 유형
이전 모델과 결합할 때 가능한 최상의 다음 모델이 전체 예측 오류를 최소화한다는 직관에 의존한다.
오류를 최소화하기 위해 다음 모델의 목표 결과를 설정하는 것이다.
분류 및 회귀 모두에 사용 가능하다.
세 가지 요소 포함
1. 최적화 할 손실 함수
2. 예측을 하는 약한 학습자
3. 손실 함수를 최소화하기 위해 약한 학습자를 추가하는 추가 모델