빅데이터 8일차 - 최적회귀방정식의 선택

2020. 7. 30. 13:13·데이터과학/R
목차
  1. 최적회귀방정식의 선택
  2. 1) 설명변수 선택 
  3. 2) 모형 선택 : 모든 가능한 조합의 회귀분석
  4. 3) 단계적 변수 선택(Stepwise Variable Selection)
  5. 전진 선택법 
  6. 후진 선택법
  7. 단계별 선택법
728x90

최적회귀방정식의 선택

 

1) 설명변수 선택 

  • 가능한 범위 내에서 적은 수의 설명변수 포함

2) 모형 선택 : 모든 가능한 조합의 회귀분석

  • AIC(Akaike information criterion)나 BIC(Bayesian information criterion) 기준으로 가장 적합한 회귀모형을 선택
  • AIC와 BIC가 가장 작은 값을 갖는 모형을 최적의 모형으로 선택

3) 단계적 변수 선택(Stepwise Variable Selection)

  1. 전진 선택법(forward selection) : 절편만 있는 상수 모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가 
  2. 후진 제거법(backward elimination) : 독립변수 후보 모두를 포함한 모형에서 출발해 제곱합의 기준으로 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더이상 유의하지 않은 변수가 없을 때까지 설명변수를 제거하고 이 때의 모형을 선택 
  3. 단계별 방법(stepwise method) = 전진선택법 + 후진 선택법 전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수의 중요도가 약화되면 해당 변수를 제거하는 등 단계별로 추가 또는 제거되는 변수의 여부를 검토해 더 이상 없을 때 중단

전진 선택법 

  • step(lm(y~1, data=df), scope=list(lower=~1, upper=~x1+x2+x3+x4), direction="forward")

후진 선택법

  • step(lm(y~x1+x2+x3+x4, data=df), direction="backward")

단계별 선택법

  • step(lm(y~1, data=df), scope=list(lower=~1, upper=~x1+x2+x3+x4), direction="both")
#최적회귀방정식의 선택
x1 <- c(7,1,11,11,7,11,3,1,2,21,1,11,10)
x2 <- c(26,29,56,31,52,55,71,31,54,47,40,66,68)
x3 <- c(6,15,8,8,6,9,17,22,18,4,23,9,8)
x4 <- c(60,52,20,47,33,22,6,44,22,26,34,12,12)
y <- c(78.5,74.3,104.3,87.6,95.9,109.2,102.7,72.5,93.1,115.9,83.8,113.3,109.4)
df <- data.frame(x1,x2,x3,x4,y)

head(df)
# 전진선택법
step(lm(y~1,data=df),scope=list(lower=~1,upper=~x1+x2+x3+x4),direction="forward")

# 후진제거법
step(lm(y~x1+x2+x3+x4,data=df),direction="backward")

# 단계별방법
step(lm(y~1,data=df),scope=list(lower=~1,upper=~x1+x2+x3+x4),direction="both")

[그림1] 최적회귀방정식 변수 생성, 데이터 프레임 설정
[그림2] 전진선택법
[그림3] 후진제거법
[그림4] 단계별방법

 

출처 : 모두를 위한 R 데이터 분석 입문 한빛아카데미

출처 : 2020 전면 개정판 ADsP 데이터 분석 준전문가 DATAEDU

728x90
저작자표시 비영리 변경금지 (새창열림)
  1. 최적회귀방정식의 선택
  2. 1) 설명변수 선택 
  3. 2) 모형 선택 : 모든 가능한 조합의 회귀분석
  4. 3) 단계적 변수 선택(Stepwise Variable Selection)
  5. 전진 선택법 
  6. 후진 선택법
  7. 단계별 선택법
'데이터과학/R' 카테고리의 다른 글
  • 빅데이터 9일차 - UCLA 대학원 입학 데이터 로지스틱 회귀 활용
  • 빅데이터9일차 - 로지스틱 회귀분석
  • 빅데이터8일차 - Prestige 데이터셋활용 ,예상 연봉, 실제 연봉, 오차 구하기
  • 빅데이터 8일차 - 다중선형 회귀모델 만들기, 다중선형 회귀모델에서 변수의 선택
포장빵
포장빵
IT공부 및 프로그래밍
  • 포장빵
    포장빵의 IT
    포장빵
  • 전체
    오늘
    어제
    • AI 학습 노트 (113)
      • 기초 수학 (4)
        • 선형대수 (0)
        • 확률통계 (4)
        • 미적분 (0)
        • 최적화 이론 (0)
      • AI & 딥러닝 (1)
        • 이론 (0)
        • 컴퓨터 비전 (0)
        • 자연어 처리 (0)
        • 생성AI (0)
        • 강화학습 (0)
      • 데이터과학 (70)
        • R (47)
        • ADSP (21)
      • 연구 & 자료 (15)
        • 논문 (6)
        • 수료증 (3)
      • 프로그래밍 & 개발 환경 (22)
        • Python (22)
        • 개발도구 (0)
        • 알고리즘 (0)
      • 면접 자료 (1)
  • 블로그 메뉴

    • 링크

    • 공지사항

    • 인기 글

    • 태그

      시퀀스형
      매핑형(딕셔너리)
      Coursera Python Data Structures
      확률
      str lib
      yolov10
      단순선형 회귀분석
      R 도수분포표
      Python Regular Expression Quick Guide
      Python 크롤링 기초
      통계량에 의한 자료 분석
      CV
      확률 분포
      k-평균 군집
      k-means clustering
      상관분석
      시계열 모형
      python 주요 데이터 타입
      none타입
      지수분포
      yolov9
      R 원 그래프 퍼센트
      자료의 종류
      Coursera 1
      R 원 그래프
      논문
      stylegan2
      주성분 분석(PCA)
      베르누이분포
      다차원 척보법
    • 최근 댓글

    • 최근 글

    • hELLO· Designed By정상우.v4.10.3
    포장빵
    빅데이터 8일차 - 최적회귀방정식의 선택

    개인정보

    • 티스토리 홈
    • 포럼
    • 로그인
    상단으로

    티스토리툴바

    단축키

    내 블로그

    내 블로그 - 관리자 홈 전환
    Q
    Q
    새 글 쓰기
    W
    W

    블로그 게시글

    글 수정 (권한 있는 경우)
    E
    E
    댓글 영역으로 이동
    C
    C

    모든 영역

    이 페이지의 URL 복사
    S
    S
    맨 위로 이동
    T
    T
    티스토리 홈 이동
    H
    H
    단축키 안내
    Shift + /
    ⇧ + /

    * 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.