빅데이터8일차 - Prestige 데이터셋활용 ,예상 연봉, 실제 연봉, 오차 구하기

2020. 7. 30. 12:36·데이터과학/R
728x90

Prestige 데이터셋

  • car 패키지의 Prestige 데이터셋
  • 행의 이름은 직군을 의미한다.
  • education : 교육연수(독립변수)
  • income : 연봉(종속변수)
  • women : 여성의 비율(독립변수)
  • prestige : 직군에 대한 평판도(독립변수)
# Prestige 데이터셋 활용
install.packages("car") # car 패키지 install
library(car) # car 패키지 가져오기
head(Prestige) # Prestige데이터셋 head
newdata <- Prestige[,c(1:4)] # 회귀식 작성을 위한 데이터 준비
plot(newdata, pch = 16, col="Slate Blue", main = "Matrix Scatterplot")
mod1 <- lm(income~education+prestige+women,data=newdata) # 회귀식 도출
summary(mod1)

[그림1] Prestige 데이터셋 head
[그림2]  summary data
[그림3] plot 데이터

 

income~ edcuation + prestige + women

  • 회귀모델에서 무엇이 독립변수고 무엇이 종속변수인지 지정하는 것, ~앞에 있는 것이 종속변수, ~뒤쪽에 있는 것이 독립변수. 독립변수가 여러 개면 + 로 연결한다.

data = newdata

  • 회귀모델 도출에 사용할 데이터셋을 지정한다. 변수명 income, education, prestige, women은 newdata에 속한 열의 이름이다.

 

예상 연봉, 실제 연봉, 오차 구하기

# 예상 연봉, 실제 연봉, 오차 구하기기
pred <- predict(mod1,Prestige[,c('education','prestige','women')])
pred[order(pred)] # 오름차순 정렬
pred[order(pred,decreasing=T)] # 내림차순 정렬
compare <- data.frame(pred,Prestige[,2],pred-Prestige[,2])
colnames(compare) <- c("예상","실제","오차")
head(compare)

[그림4] 데이터 오름차순 정렬
[그림5] 데이터 내림차순 정렬
[그림6] 예상, 실제, 오차 값 head 출력

 

출처 : 모두를 위한 R 데이터 분석 입문 한빛아카데미

728x90
저작자표시 비영리 변경금지 (새창열림)
'데이터과학/R' 카테고리의 다른 글
  • 빅데이터9일차 - 로지스틱 회귀분석
  • 빅데이터 8일차 - 최적회귀방정식의 선택
  • 빅데이터 8일차 - 다중선형 회귀모델 만들기, 다중선형 회귀모델에서 변수의 선택
  • 빅데이터 8일차 - 주행속도와 제동거리 사이의 회귀모델 구하기, 실제 제동거리, 예상 제동거리, 오차 구하기
포장빵
포장빵
IT공부 및 프로그래밍
  • 포장빵
    포장빵의 IT
    포장빵
  • 전체
    오늘
    어제
    • AI 학습 노트 (113)
      • 기초 수학 (4)
        • 선형대수 (0)
        • 확률통계 (4)
        • 미적분 (0)
        • 최적화 이론 (0)
      • AI & 딥러닝 (1)
        • 이론 (0)
        • 컴퓨터 비전 (0)
        • 자연어 처리 (0)
        • 생성AI (0)
        • 강화학습 (0)
      • 데이터과학 (70)
        • R (47)
        • ADSP (21)
      • 연구 & 자료 (15)
        • 논문 (6)
        • 수료증 (3)
      • 프로그래밍 & 개발 환경 (22)
        • Python (22)
        • 개발도구 (0)
        • 알고리즘 (0)
      • 면접 자료 (1)
  • 블로그 메뉴

    • 링크

    • 공지사항

    • 인기 글

    • 태그

      다차원 척보법
      R 원 그래프 퍼센트
      확률
      CV
      R 도수분포표
      yolov9
      Python Regular Expression Quick Guide
      단순선형 회귀분석
      자료의 종류
      주성분 분석(PCA)
      상관분석
      Coursera Python Data Structures
      Coursera 1
      k-means clustering
      지수분포
      k-평균 군집
      python 주요 데이터 타입
      R 원 그래프
      확률 분포
      stylegan2
      none타입
      yolov10
      통계량에 의한 자료 분석
      Python 크롤링 기초
      시퀀스형
      str lib
      시계열 모형
      논문
      매핑형(딕셔너리)
      베르누이분포
    • 최근 댓글

    • 최근 글

    • hELLO· Designed By정상우.v4.10.3
    포장빵
    빅데이터8일차 - Prestige 데이터셋활용 ,예상 연봉, 실제 연봉, 오차 구하기
    상단으로

    티스토리툴바