728x90
반응형

확률적 모델링(probabilistic modeling)

  • 통계학 이론을 데이터 분석에 응용한 것
  • 초창기 머신 러닝 형태 중 하나, 요즘도 널리 사용
  • 가장 널리 알려진 알고리즘 중 하나는 나이브 베이즈(Naive Bayes)

 

 

나이브 베이즈(Naive Bayes)

  • 입력 데이터의 특성이 모두 독립적이라고 가정하고 베이즈 정리(Bayes' theorem)를 적용하는 머신 러닝 분류 알고리즘이다.
    • 강한 또는 '순진한'(naive) 가정이다. 여기에서 이름이 유래되었다.
    • 컴퓨터가 등장하기 수십 년 전에는 수작업으로 적용했다.(1950년대)
    • 베이즈 정리와 통계의 토대는 18세기까지 거슬러 올라간다.

 

로지스틱 회귀(logistic regression)

  • 현대 머신 러닝의 "hello world"로 여겨진다. (가장 기초적이고 가장 처음? 사용하게 되는)
  • 회귀(regression) 알고리즘이 아니라 분류(classification) 알고리즘이다.
  • 컴퓨터보다 훨씬 오래 전부터 있었다.
  • 간단하고 다목적으로 활용할 수 있어서 오늘날에도 여전히 유용하다.
  • 데이터 과학자가 분류 작업에 감을 바르게 얻기 위해 데이터셋에 적용할 첫 번째 알고리즘으로 선택하는 경우가 많다.

 

 

초창기 신경망

  • 신경망의 핵심 아이디어는 아주 일찍 1950년대에 작게나마 연구되었지만 본격적으로 시작되기까지는 수십 년이 걸렸다.
    • 대규모 신경망을 훈련시킬 수 있는 효과적인 방법을 오랜 기간 찾지 못했기 때문
  • 1980년대 중반에 여러 사람들이 제각기 역전파 알고리즘 재발견하고 신경망에 이를 적용하면서 상황이 바뀌었다.
    • 이 알고리즘은 경사 하강법을 사용해 연쇄적으로 변수가 연결된 연산을 훈련하는 방법
  • 성공적인 첫 번째 신경망 애플리케이션은 1989년 벨 연구소(Bell Labs)에서 나왔다.
  • 얀 르쿤(Yann LeCun)은 초창기 합성곱 신경망(Convolution neural network)과 역전파를 연결해 손글씨 숫자 이미지를 분류하는 문제를 적용했다.
    • LeNet이라 부르는 이 신경망은 우편 봉투의 우편 번호 코드를 자동으로 읽기 위해 1990년대 미국 우편 서비스에 적용

 

커널 방법(Kernel method)

  • 커널 방법은 분류 알고리즘의 한 종류를 말하며 그중 서포트 벡터 머신(Support Vector Machine, SVM)이 가장 유명하다.

 

SVM(Support Vector Machine, SVM)

  • 현대적인 SVM의 공식은 1990년대 초 벨 연구소의 블라디미르 바프닉(Vladimir Vapnik)과 코리나 코르테스(Corinna Cortes)에 의해 개발되었고 1995년 공개되었다.
  • SVM은 분류 문제를 해결하기 위해 2개의 다른 범주에 속한 데이터 포인트 그룹 사이에 좋은 경계(decision boundary)를 찾는다.
  • 결정 경계는 훈련 데이터를 2개의 범주에 대응하는 영역으로 나누는 직선이나 표면으로 생각할 수 있다.
  • 대용랴야 데이터셋에 확장되기 어렵고 이미지 분류 같은 지각에 관련된 문제에서 좋은 성능을 내지 못했다.
  • 얕은 학습 방법이기 때문에 지각에 관련된 문제에 SVM을 적용하려면 먼저 수동으로 유용한 표현을 추출해야 하는데(이런 걸 특성 공학(feature engineering)이라 한다) 이는 매우 어렵고 불안정하다.

 

SVM이 결정 경계를 찾는 과정 두 단계

  1. 결정 경계가 하나의 초평면(hyperplane)으로 표현될 수 있는 새로운 고차원 표현으로 데이터를 매핑한다.
  2. 초평면과 각 클래스의 가장 가까운 데이터 포인트 사이의 거리가 최대가 되는 최선의 결정 경계(하나의 분할 초평면)을 찾는다.
    • 이 단계를 마진 최대화(maximizing the margin)라고 부른다.
    • 이렇게 함으로써 결정 경계가 훈련 데이터셋 이외의 새로운 샘플에 잘 일반화되도록 도와준다.

 

결정 트리, 랜덤 포레스트, 그래디언트 부스팅 머신

 

결정 트리(decision tree)

  • 플로차트(flowchart)같은 구조를 가지며 입력 데이터 포인트를 분류하거나 주어진 입력에 대해 출력 값을 예측한다.
  • 시각화하고 이해하기 쉽다.

 

랜덤 포레스트(Random Forest)

  • 결정 트리 학습에 기초한 것으로 안정적이고 실전에서 유용하다.
  • 서로 다른 결정 트리를 많이 만들고 그 출력을 앙상블 하는 방법을 사용한다.
  • 얕은 학습에 해당하는 어떤 작업에서도 거의 항상 두 번째로 좋은 알고리즘

 

그래디언트 부스팅 머신(gradient boosting machine)

  • 약한 예측 모델인 결정 트리를 앙상블 하는 것을 기반으로 하는 머신 러닝 기법
  • 이전 모델에서 놓친 데이터 포인트를 보완하는 새로운 모델을 반복적으로 훈련함으로써 머신 러닝 모델을 향상하는 방법인 그래디언트 부스팅(gradient boosting)을 사용한다.

 

딥러닝의 특징

  • 빠르게 확산된 주된 이유는 많은 문제에서 더 좋은 성능을 내고 있기 때문
  • 머신 러닝에서 가장 중요한 단계인 특성 공학을 완전히 자동화하기 때문에 문제를 더 해결하기 쉽게 만들어준다.
  • 특성을 직접 찾는 대신 한 번에 모든 특성을 학습할 수 있다.
  • 변환 능력은 모델이 모든 표현 층을 순차적이 아니라(즉 탐욕적(greedily) 방법이 아니라) 동시에 공동으로 학습하게 만든다.
  • 공동 특성 학습 능력 덕택에 모델이 내부 특성 하나에 맞추어질 때마다 이에 의존하는 다른 모든 특성이 사람이 개입하지 않아도 자동으로 변화에 적응하게 된다.
  • 모든 학습은 하나의 피드백 신호로 시작된다.
    • 모델의 모든 변화는 최종 목표를 따라가게 된다.
    • 얕은 모델을 탐욕적으로 쌓은 것보다 훨씬 강력하다.

특성 공학(feature engineering)

  • 데이터의 좋은 표현을 수동으로 만들어야 한다. 

 

 

*************************

초평면

  • P차원에서 Class들을 분류하는 P-1차원의 부분 공간(Subspace)이다.
  • 3차원 공간 속의 평면을 일반화하여 얻는 개념이다. (수학에서)

 

플로차트(Flowchart) - 순서도

  • 어떠한 일을 처리하는 과정을 순서대로 간단한 기호와 도형으로 도식화한 것을 의미한다.
  • 이러한 순서도는 여러 분야에서 프로세스나 문제의 분석, 기획, 디자인, 설계나 관리 등에서 폭넓게 활용되고 있다.

앙상블(Ensemble)

  • 앙상블 학습은 여러 개의 분류기를 생성하고, 그 예측을 결합함으로써 보다 정확한 예측을 도출하는 기법을 말한다.
  • 강력한 하나의 모델을 사용하는 대신 보다 약한 모델 여러 개를 조합해 더 정확한 예측에 도움을 주는 방식이다.

 

 

그래디언트 부스팅(gradient boosting)

  • 부스팅 알고리즘의 한 유형
  • 이전 모델과 결합할 때 가능한 최상의 다음 모델이 전체 예측 오류를 최소화한다는 직관에 의존한다.
  • 오류를 최소화하기 위해 다음 모델의 목표 결과를 설정하는 것이다.
  • 분류 및 회귀 모두에 사용 가능하다.
  • 세 가지 요소 포함
    1. 최적화 할 손실 함수
    2. 예측을 하는 약한 학습자
    3. 손실 함수를 최소화하기 위해 약한 학습자를 추가하는 추가 모델

 

 

 

출처 :

www.yes24.com/Product/Goods/65050162?OzSrank=1

 

케라스 창시자에게 배우는 딥러닝

단어 하나, 코드 한 줄 버릴 것이 없다!창시자의 철학까지 담은 딥러닝 입문서케라스 창시자이자 구글 딥러닝 연구원인 저자는 ‘인공 지능의 민주화’를 강조한다. 이 책 역시 많은 사람에게

www.yes24.com

 

728x90
반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기