728x90
반응형

다중선형 회귀모델 만들기

  • 단순선형 회귀가 하나의 독립변수를 다룬다면 다중선형 회귀는 여러 개의 독립변수를 다룬다.
  • ex) 키와 몸무게를 가지고 혈당 수치를 예측 - 키(x1), 몸무게(x2) : 독립변수, 혈당수치(y) : 종속변수
  • 다중 회귀모델(다중 회귀식)의 일반적인 형태 - 그림1
  • R에서는 다중 회귀모델도 lm()함수를 이용해 구한다.
  • Mass 패키지의 "Cars93"이라는 데이터셋의 가격(Price)를 종속변수로 선정하고 엔진 크기(EngineSize), RPM, 무게(Weight)를 이용해 다중회귀분석 예제

[그림1] 다중 회귀모델 일반적인 형태

 

# 다중선형 회귀분석
library(MASS) # MASS패키지 가져오기.
head(Cars93) # cars93 head로 확인
attach(Cars93) # attach : 데이터를 R 검색 경로에 추가하여 변수명으로 바로 접근할 수 있게 한다.
mo <- lm(Price~EngineSize+RPM+Weight,data = Cars93) # Price - 종속변수 EnginesSize,RPM,Weight은 독립변수
summary(mo)

detach(Cars93) # attach(Cars93)제거

[그림2] haed(Cars93), MASS패키지 가져오기

 

[그림3] attach, summary로 요약 통계 확인

 

1. 독립변수 : EngineSize,RPM,Weight

2. 종속변수 : Price

3. 회귀식 : Prcie = -51.79+4.305*EngineSize+0.01*PRM+0.01*Weight

4. F 통계량은 37.98이며 유의확률 P의 값은 6.746e-16으로 0.05보다 매우 작으므로 회귀 모형이 통계적으로 매우 유의하다.

5. 회귀계수의 p값들이 0.05보다 작으므로 회귀계수의 추정치들이 통계적으로 유의하다.

6. 결정계수와 수정된 결정계수는 각각 0.5614, 0.5467로 조금 낮게 나타나 설명력은 낮다

7. 결정계수가 낮아 데이터의 설명력은 낮지만 회귀식과 회귀계수들이 통계적으로 유의하여 자동차의 가격을 엔진의 크기와 RPM, 무게로 추정가능하다.

 

 

다중선형 회귀모델 변수의 선택

  • 다중선형 회귀모델에서는 종속변수를 설명하는 데 도움이 되는 독립변수가 다수 존재한다.
  • 그런데 모든 독립변수가 종속변수를 설명하는 데 동일하게 기여하는 것은 아니다.
  • 어떤 변수는 기여도가 높고, 어떤 변수는 기여도가 낮다. 
  • 예를 들어 ‘수면시간’, ‘학습시간’은 ‘성적’을 예측하는 데 중요한 기여를 할 수 있지만, ‘점심식사 여부’는 ‘성적’을 예측하는 데 별로 도움이 되지 않는 변수 
  • 기여도가 낮거나 거의 없는 변수들은 모델에서 제외하는 것이 좋음(적은 변수를 가지고 현실을 잘 설명할 수 있는 것이 좋은 모델이기 때문) 
  • R에서는 모델에 기여하는 변수들을 선별할 수 있는 stepAIC() 함수를 제공한다.

 

 

출처 : 모두를 위한 R 데이터 분석 입문 한빛아카데미

728x90
반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기