빅데이터 8일차 - 회귀분석 관련 용어,회귀의 어원, 단순선형 회귀분석

2020. 7. 30. 10:40·데이터과학/R
728x90

회귀분석 관련 용어

  • 증권회사에서는 미래의 주식 시세를 예측하기 위해 많은 연구
  • 주식 시세는 기업의 매출액, 원유가격, 구겢정세, 정부정책 발표 등 매우 많은 요인들에 의해 영향 받는다.
  • 독립변수(independent variable) : 주식시세에 영향을 미치는 요인들(기업의 매출액, 원유가격, 국제정세, 정부정책 발표)
  • 종속변수(dependent variable) : 독립변수의 영향에 따라 값이 결정되는 주식시세
  • 독립변수와 종속변수를 다른 용어로 각각 설명변수(explanatory variable)와 반응변수(response variable)라고도 한다.
  • 예측모델(prediction model) 또는 예측모형 : 독립변수에 해당하는 자료와 종속변수에 해당하는 자료를 모아 관계를 분석하고 이를 예측에 사용할 수 있는 통계적 방법으로 정리한 것
  • 회귀분석(regression analysis) : 회귀 이론을 기초로 독립변수(설명변수)가 종속변수(반응변수)에 미치는 영향을 파악하여 예측 모델을 도출하는 통계적 방법
  • 회귀분석은 여러 가지 종류가 있는데, 회귀분석에서 독립변수의 수가 하나인 경우를 단순 회귀(simple regression)라고 하고, 독립변수의 수가 두 개 이상인 경우를 다중 회귀(multiple regression)라고 한다.

 

회귀의 어원

  • 회귀분석은 우생학을 만들어낸 프랜시스 골턴의 아이디어에서 시작되었다.
  • 골턴은 유전학을 연구하던 중 아버지와 아들의 키에 대한 데이터를 접하게 되었는데, 대체로 아버지가 크면 아들도 크고 아버지가 작으면 아들도 작은 경향이 있어보였다.
  • 그러나 키가 큰 아버지의 아들도 키가 크긴 하지만 아버지보단 작아지는 경향이 있고, 키가 작은 아버지의 아들도 키가 작긴 하지만 아버지보단 커지는 경향이 있었다.
  • 한편 꼭 평균으로 회귀하는 것만은 아닌 것이, 성장 환경이나 돌연변이처럼 어쩔 수 없이 생기는 오차가 있다.
  • 그렇다면 정확하게는 아니라도, 어느 정도의 오차는 있더라도 아버지의 키만 보고 아들의 키를 대강 맞출 수 있지는 않을까?

 

단순선형 회귀분석의 목표

  • 단순선형 회귀 : 독립변수(x)와 종속변수(y) 사이의 선형관계를 파악하고 이를 예측에 활용하는 통계적 방법, ex) 기온(x) 자료를 가지고 아이스크림 판매량(y)를 옟그하는 문제
  • 단순선형 회귀모델 또는 단순선형 회귀식은 다음과 같이 1차식의 형태를 가진다.

[그림1] 단순선형 회귀분석 예제 

 

①회귀계수의 추정(최소제곱법, 최소자승법)

  • 측정값을 기초로 하여 적당한 제곱합을 만들고 그것을 최소로 하는값을 구하여 측정결과를 처리하는 방법으로 잔차체곱이 가장 작은 선을 구하는 것을 의미한다.

 

[그림2] 회귀계수의 추정

 

 

② 회귀분석의 검정 

  • 회귀계수 β1이 0이면 입력변수 x와 y 사이에 아무런 인과관계가 없음
  • 회귀계수 β1 이 0이면 적합된 추정식은 아무 의미가 없음(귀무가설 β1 =0, 대립가설 β1 ≠0)

 

 

③ 결정계수(R2)

  • 결정계수가 1에 가까울수록 회귀모형이 자료를 잘 설명한다.
  • 다변량 회귀분석에서는 독립변수의 수가 많아지면 결정계수가 높아지므로 단점을 보완하기 위해 수정된 결정계수(adjusted R2)를 활용한다.

 

 

 

단순선형 회귀분석 예

 

x <- c(19,23,25,28,30,37,38,49,50)
y <- c(32,49,39,55,69,82,60,90,88)
lm(y~x) 
# lm()함수는 linear regresssion의 핵심, 회귀분석, 단일 계층 분석, 공분산 분석에 이용 가능하다.
# fomula() - 적용할 모델의 내용
# 데이터의 길이는 같아야 한다.
summary(lm(y~x)) 

** lm() 함수 알아두기.

 

[그림3] lm()함수 사용 예제 출력
[그림4] summary 함수로 요약 통계 확인

1. 독립변수 : 예약대수

2. 종속변수 : 판매대수

3. 회귀식 : 판매대수 = 4.784 + 1.742 * 예약대수

4. 귀무가설 : β1=0(종속변수는 독립변수와 인과관계가 없음)

5. 대립가설 : β1≠0(종속변수는 독립변수와 인과관계가 있음)

6. 회귀계수 β 1 의 p값은 0.0005545로서 0.05보다 작으므로 회귀계수가 유의미하다.

7. 결정계수와 수정된 결정계수 모두 0.8362, 0.8128로서 데이터 설명력이 높다.

 

 

 

출처 : 모두를 위한 R 데이터 분석 입문 한빛아카데미

728x90
저작자표시 비영리 변경금지 (새창열림)
'데이터과학/R' 카테고리의 다른 글
  • 빅데이터 8일차 - 다중선형 회귀모델 만들기, 다중선형 회귀모델에서 변수의 선택
  • 빅데이터 8일차 - 주행속도와 제동거리 사이의 회귀모델 구하기, 실제 제동거리, 예상 제동거리, 오차 구하기
  • 빅데이터7일차 - 데이터 병합
  • 빅데이터 7일차 - 데이터 집계
포장빵
포장빵
IT공부 및 프로그래밍
  • 포장빵
    포장빵의 IT
    포장빵
  • 전체
    오늘
    어제
    • AI 학습 노트 (113)
      • 기초 수학 (4)
        • 선형대수 (0)
        • 확률통계 (4)
        • 미적분 (0)
        • 최적화 이론 (0)
      • AI & 딥러닝 (1)
        • 이론 (0)
        • 컴퓨터 비전 (0)
        • 자연어 처리 (0)
        • 생성AI (0)
        • 강화학습 (0)
      • 데이터과학 (70)
        • R (47)
        • ADSP (21)
      • 연구 & 자료 (15)
        • 논문 (6)
        • 수료증 (3)
      • 프로그래밍 & 개발 환경 (22)
        • Python (22)
        • 개발도구 (0)
        • 알고리즘 (0)
      • 면접 자료 (1)
  • 블로그 메뉴

    • 링크

    • 공지사항

    • 인기 글

    • 태그

      시계열 모형
      자료의 종류
      yolov9
      python 주요 데이터 타입
      k-means clustering
      시퀀스형
      논문
      Coursera Python Data Structures
      yolov10
      지수분포
      none타입
      단순선형 회귀분석
      str lib
      Python Regular Expression Quick Guide
      Python 크롤링 기초
      확률
      매핑형(딕셔너리)
      stylegan2
      통계량에 의한 자료 분석
      확률 분포
      CV
      R 원 그래프 퍼센트
      다차원 척보법
      주성분 분석(PCA)
      R 도수분포표
      베르누이분포
      상관분석
      R 원 그래프
      k-평균 군집
      Coursera 1
    • 최근 댓글

    • 최근 글

    • hELLO· Designed By정상우.v4.10.3
    포장빵
    빅데이터 8일차 - 회귀분석 관련 용어,회귀의 어원, 단순선형 회귀분석
    상단으로

    티스토리툴바