728x90
반응형

Prestige 데이터셋

  • car 패키지의 Prestige 데이터셋
  • 행의 이름은 직군을 의미한다.
  • education : 교육연수(독립변수)
  • income : 연봉(종속변수)
  • women : 여성의 비율(독립변수)
  • prestige : 직군에 대한 평판도(독립변수)
# Prestige 데이터셋 활용
install.packages("car") # car 패키지 install
library(car) # car 패키지 가져오기
head(Prestige) # Prestige데이터셋 head
newdata <- Prestige[,c(1:4)] # 회귀식 작성을 위한 데이터 준비
plot(newdata, pch = 16, col="Slate Blue", main = "Matrix Scatterplot")
mod1 <- lm(income~education+prestige+women,data=newdata) # 회귀식 도출
summary(mod1)

[그림1] Prestige 데이터셋 head
[그림2]  summary data
[그림3] plot 데이터

 

income~ edcuation + prestige + women

  • 회귀모델에서 무엇이 독립변수고 무엇이 종속변수인지 지정하는 것, ~앞에 있는 것이 종속변수, ~뒤쪽에 있는 것이 독립변수. 독립변수가 여러 개면 + 로 연결한다.

data = newdata

  • 회귀모델 도출에 사용할 데이터셋을 지정한다. 변수명 income, education, prestige, women은 newdata에 속한 열의 이름이다.

 

예상 연봉, 실제 연봉, 오차 구하기

# 예상 연봉, 실제 연봉, 오차 구하기기
pred <- predict(mod1,Prestige[,c('education','prestige','women')])
pred[order(pred)] # 오름차순 정렬
pred[order(pred,decreasing=T)] # 내림차순 정렬
compare <- data.frame(pred,Prestige[,2],pred-Prestige[,2])
colnames(compare) <- c("예상","실제","오차")
head(compare)

[그림4] 데이터 오름차순 정렬
[그림5] 데이터 내림차순 정렬
[그림6] 예상, 실제, 오차 값 head 출력

 

출처 : 모두를 위한 R 데이터 분석 입문 한빛아카데미

728x90
반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기