빅데이터 8일차 - 다중선형 회귀모델 만들기, 다중선형 회귀모델에서 변수의 선택

2020. 7. 30. 12:03·데이터과학/R
목차
  1. 다중선형 회귀모델 만들기
  2. 다중선형 회귀모델 변수의 선택
728x90

다중선형 회귀모델 만들기

  • 단순선형 회귀가 하나의 독립변수를 다룬다면 다중선형 회귀는 여러 개의 독립변수를 다룬다.
  • ex) 키와 몸무게를 가지고 혈당 수치를 예측 - 키(x1), 몸무게(x2) : 독립변수, 혈당수치(y) : 종속변수
  • 다중 회귀모델(다중 회귀식)의 일반적인 형태 - 그림1
  • R에서는 다중 회귀모델도 lm()함수를 이용해 구한다.
  • Mass 패키지의 "Cars93"이라는 데이터셋의 가격(Price)를 종속변수로 선정하고 엔진 크기(EngineSize), RPM, 무게(Weight)를 이용해 다중회귀분석 예제

[그림1] 다중 회귀모델 일반적인 형태

 

# 다중선형 회귀분석
library(MASS) # MASS패키지 가져오기.
head(Cars93) # cars93 head로 확인
attach(Cars93) # attach : 데이터를 R 검색 경로에 추가하여 변수명으로 바로 접근할 수 있게 한다.
mo <- lm(Price~EngineSize+RPM+Weight,data = Cars93) # Price - 종속변수 EnginesSize,RPM,Weight은 독립변수
summary(mo)

detach(Cars93) # attach(Cars93)제거

[그림2] haed(Cars93), MASS패키지 가져오기

 

[그림3] attach, summary로 요약 통계 확인

 

1. 독립변수 : EngineSize,RPM,Weight

2. 종속변수 : Price

3. 회귀식 : Prcie = -51.79+4.305*EngineSize+0.01*PRM+0.01*Weight

4. F 통계량은 37.98이며 유의확률 P의 값은 6.746e-16으로 0.05보다 매우 작으므로 회귀 모형이 통계적으로 매우 유의하다.

5. 회귀계수의 p값들이 0.05보다 작으므로 회귀계수의 추정치들이 통계적으로 유의하다.

6. 결정계수와 수정된 결정계수는 각각 0.5614, 0.5467로 조금 낮게 나타나 설명력은 낮다

7. 결정계수가 낮아 데이터의 설명력은 낮지만 회귀식과 회귀계수들이 통계적으로 유의하여 자동차의 가격을 엔진의 크기와 RPM, 무게로 추정가능하다.

 

 

다중선형 회귀모델 변수의 선택

  • 다중선형 회귀모델에서는 종속변수를 설명하는 데 도움이 되는 독립변수가 다수 존재한다.
  • 그런데 모든 독립변수가 종속변수를 설명하는 데 동일하게 기여하는 것은 아니다.
  • 어떤 변수는 기여도가 높고, 어떤 변수는 기여도가 낮다. 
  • 예를 들어 ‘수면시간’, ‘학습시간’은 ‘성적’을 예측하는 데 중요한 기여를 할 수 있지만, ‘점심식사 여부’는 ‘성적’을 예측하는 데 별로 도움이 되지 않는 변수 
  • 기여도가 낮거나 거의 없는 변수들은 모델에서 제외하는 것이 좋음(적은 변수를 가지고 현실을 잘 설명할 수 있는 것이 좋은 모델이기 때문) 
  • R에서는 모델에 기여하는 변수들을 선별할 수 있는 stepAIC() 함수를 제공한다.

 

 

출처 : 모두를 위한 R 데이터 분석 입문 한빛아카데미

728x90
저작자표시 비영리 변경금지
  1. 다중선형 회귀모델 만들기
  2. 다중선형 회귀모델 변수의 선택
'데이터과학/R' 카테고리의 다른 글
  • 빅데이터 8일차 - 최적회귀방정식의 선택
  • 빅데이터8일차 - Prestige 데이터셋활용 ,예상 연봉, 실제 연봉, 오차 구하기
  • 빅데이터 8일차 - 주행속도와 제동거리 사이의 회귀모델 구하기, 실제 제동거리, 예상 제동거리, 오차 구하기
  • 빅데이터 8일차 - 회귀분석 관련 용어,회귀의 어원, 단순선형 회귀분석
포장빵
포장빵
IT공부 및 프로그래밍
  • 포장빵
    포장빵의 IT
    포장빵
  • 전체
    오늘
    어제
    • AI 학습 노트 (113)
      • 기초 수학 (4)
        • 선형대수 (0)
        • 확률통계 (4)
        • 미적분 (0)
        • 최적화 이론 (0)
      • AI & 딥러닝 (1)
        • 이론 (0)
        • 컴퓨터 비전 (0)
        • 자연어 처리 (0)
        • 생성AI (0)
        • 강화학습 (0)
      • 데이터과학 (70)
        • R (47)
        • ADSP (21)
      • 연구 & 자료 (15)
        • 논문 (6)
        • 수료증 (3)
      • 프로그래밍 & 개발 환경 (22)
        • Python (22)
        • 개발도구 (0)
        • 알고리즘 (0)
      • 면접 자료 (1)
  • 블로그 메뉴

    • 링크

    • 공지사항

    • 인기 글

    • 태그

      yolov10
      다차원 척보법
      k-평균 군집
      시계열 모형
      none타입
      지수분포
      베르누이분포
      논문
      Coursera 1
      자료의 종류
      확률 분포
      R 원 그래프
      확률
      상관분석
      yolov9
      단순선형 회귀분석
      통계량에 의한 자료 분석
      str lib
      stylegan2
      매핑형(딕셔너리)
      Python Regular Expression Quick Guide
      Coursera Python Data Structures
      주성분 분석(PCA)
      k-means clustering
      CV
      R 원 그래프 퍼센트
      python 주요 데이터 타입
      R 도수분포표
      Python 크롤링 기초
      시퀀스형
    • 최근 댓글

    • 최근 글

    • hELLO· Designed By정상우.v4.10.3
    포장빵
    빅데이터 8일차 - 다중선형 회귀모델 만들기, 다중선형 회귀모델에서 변수의 선택

    개인정보

    • 티스토리 홈
    • 포럼
    • 로그인
    상단으로

    티스토리툴바

    단축키

    내 블로그

    내 블로그 - 관리자 홈 전환
    Q
    Q
    새 글 쓰기
    W
    W

    블로그 게시글

    글 수정 (권한 있는 경우)
    E
    E
    댓글 영역으로 이동
    C
    C

    모든 영역

    이 페이지의 URL 복사
    S
    S
    맨 위로 이동
    T
    T
    티스토리 홈 이동
    H
    H
    단축키 안내
    Shift + /
    ⇧ + /

    * 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.