728x90
반응형
최적회귀방정식의 선택
1) 설명변수 선택
- 가능한 범위 내에서 적은 수의 설명변수 포함
2) 모형 선택 : 모든 가능한 조합의 회귀분석
- AIC(Akaike information criterion)나 BIC(Bayesian information criterion) 기준으로 가장 적합한 회귀모형을 선택
- AIC와 BIC가 가장 작은 값을 갖는 모형을 최적의 모형으로 선택
3) 단계적 변수 선택(Stepwise Variable Selection)
- 전진 선택법(forward selection) : 절편만 있는 상수 모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가
- 후진 제거법(backward elimination) : 독립변수 후보 모두를 포함한 모형에서 출발해 제곱합의 기준으로 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더이상 유의하지 않은 변수가 없을 때까지 설명변수를 제거하고 이 때의 모형을 선택
- 단계별 방법(stepwise method) = 전진선택법 + 후진 선택법 전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수의 중요도가 약화되면 해당 변수를 제거하는 등 단계별로 추가 또는 제거되는 변수의 여부를 검토해 더 이상 없을 때 중단
전진 선택법
- step(lm(y~1, data=df), scope=list(lower=~1, upper=~x1+x2+x3+x4), direction="forward")
후진 선택법
- step(lm(y~x1+x2+x3+x4, data=df), direction="backward")
단계별 선택법
- step(lm(y~1, data=df), scope=list(lower=~1, upper=~x1+x2+x3+x4), direction="both")
#최적회귀방정식의 선택
x1 <- c(7,1,11,11,7,11,3,1,2,21,1,11,10)
x2 <- c(26,29,56,31,52,55,71,31,54,47,40,66,68)
x3 <- c(6,15,8,8,6,9,17,22,18,4,23,9,8)
x4 <- c(60,52,20,47,33,22,6,44,22,26,34,12,12)
y <- c(78.5,74.3,104.3,87.6,95.9,109.2,102.7,72.5,93.1,115.9,83.8,113.3,109.4)
df <- data.frame(x1,x2,x3,x4,y)
head(df)
# 전진선택법
step(lm(y~1,data=df),scope=list(lower=~1,upper=~x1+x2+x3+x4),direction="forward")
# 후진제거법
step(lm(y~x1+x2+x3+x4,data=df),direction="backward")
# 단계별방법
step(lm(y~1,data=df),scope=list(lower=~1,upper=~x1+x2+x3+x4),direction="both")
출처 : 모두를 위한 R 데이터 분석 입문 한빛아카데미
출처 : 2020 전면 개정판 ADsP 데이터 분석 준전문가 DATAEDU
728x90
반응형