빅데이터 8일차 - 회귀분석 관련 용어,회귀의 어원, 단순선형 회귀분석

2020. 7. 30. 10:40·데이터과학/R
728x90

회귀분석 관련 용어

  • 증권회사에서는 미래의 주식 시세를 예측하기 위해 많은 연구
  • 주식 시세는 기업의 매출액, 원유가격, 구겢정세, 정부정책 발표 등 매우 많은 요인들에 의해 영향 받는다.
  • 독립변수(independent variable) : 주식시세에 영향을 미치는 요인들(기업의 매출액, 원유가격, 국제정세, 정부정책 발표)
  • 종속변수(dependent variable) : 독립변수의 영향에 따라 값이 결정되는 주식시세
  • 독립변수와 종속변수를 다른 용어로 각각 설명변수(explanatory variable)와 반응변수(response variable)라고도 한다.
  • 예측모델(prediction model) 또는 예측모형 : 독립변수에 해당하는 자료와 종속변수에 해당하는 자료를 모아 관계를 분석하고 이를 예측에 사용할 수 있는 통계적 방법으로 정리한 것
  • 회귀분석(regression analysis) : 회귀 이론을 기초로 독립변수(설명변수)가 종속변수(반응변수)에 미치는 영향을 파악하여 예측 모델을 도출하는 통계적 방법
  • 회귀분석은 여러 가지 종류가 있는데, 회귀분석에서 독립변수의 수가 하나인 경우를 단순 회귀(simple regression)라고 하고, 독립변수의 수가 두 개 이상인 경우를 다중 회귀(multiple regression)라고 한다.

 

회귀의 어원

  • 회귀분석은 우생학을 만들어낸 프랜시스 골턴의 아이디어에서 시작되었다.
  • 골턴은 유전학을 연구하던 중 아버지와 아들의 키에 대한 데이터를 접하게 되었는데, 대체로 아버지가 크면 아들도 크고 아버지가 작으면 아들도 작은 경향이 있어보였다.
  • 그러나 키가 큰 아버지의 아들도 키가 크긴 하지만 아버지보단 작아지는 경향이 있고, 키가 작은 아버지의 아들도 키가 작긴 하지만 아버지보단 커지는 경향이 있었다.
  • 한편 꼭 평균으로 회귀하는 것만은 아닌 것이, 성장 환경이나 돌연변이처럼 어쩔 수 없이 생기는 오차가 있다.
  • 그렇다면 정확하게는 아니라도, 어느 정도의 오차는 있더라도 아버지의 키만 보고 아들의 키를 대강 맞출 수 있지는 않을까?

 

단순선형 회귀분석의 목표

  • 단순선형 회귀 : 독립변수(x)와 종속변수(y) 사이의 선형관계를 파악하고 이를 예측에 활용하는 통계적 방법, ex) 기온(x) 자료를 가지고 아이스크림 판매량(y)를 옟그하는 문제
  • 단순선형 회귀모델 또는 단순선형 회귀식은 다음과 같이 1차식의 형태를 가진다.

[그림1] 단순선형 회귀분석 예제 

 

①회귀계수의 추정(최소제곱법, 최소자승법)

  • 측정값을 기초로 하여 적당한 제곱합을 만들고 그것을 최소로 하는값을 구하여 측정결과를 처리하는 방법으로 잔차체곱이 가장 작은 선을 구하는 것을 의미한다.

 

[그림2] 회귀계수의 추정

 

 

② 회귀분석의 검정 

  • 회귀계수 β1이 0이면 입력변수 x와 y 사이에 아무런 인과관계가 없음
  • 회귀계수 β1 이 0이면 적합된 추정식은 아무 의미가 없음(귀무가설 β1 =0, 대립가설 β1 ≠0)

 

 

③ 결정계수(R2)

  • 결정계수가 1에 가까울수록 회귀모형이 자료를 잘 설명한다.
  • 다변량 회귀분석에서는 독립변수의 수가 많아지면 결정계수가 높아지므로 단점을 보완하기 위해 수정된 결정계수(adjusted R2)를 활용한다.

 

 

 

단순선형 회귀분석 예

 

x <- c(19,23,25,28,30,37,38,49,50)
y <- c(32,49,39,55,69,82,60,90,88)
lm(y~x) 
# lm()함수는 linear regresssion의 핵심, 회귀분석, 단일 계층 분석, 공분산 분석에 이용 가능하다.
# fomula() - 적용할 모델의 내용
# 데이터의 길이는 같아야 한다.
summary(lm(y~x)) 

** lm() 함수 알아두기.

 

[그림3] lm()함수 사용 예제 출력
[그림4] summary 함수로 요약 통계 확인

1. 독립변수 : 예약대수

2. 종속변수 : 판매대수

3. 회귀식 : 판매대수 = 4.784 + 1.742 * 예약대수

4. 귀무가설 : β1=0(종속변수는 독립변수와 인과관계가 없음)

5. 대립가설 : β1≠0(종속변수는 독립변수와 인과관계가 있음)

6. 회귀계수 β 1 의 p값은 0.0005545로서 0.05보다 작으므로 회귀계수가 유의미하다.

7. 결정계수와 수정된 결정계수 모두 0.8362, 0.8128로서 데이터 설명력이 높다.

 

 

 

출처 : 모두를 위한 R 데이터 분석 입문 한빛아카데미

728x90
저작자표시 비영리 변경금지 (새창열림)
'데이터과학/R' 카테고리의 다른 글
  • 빅데이터 8일차 - 다중선형 회귀모델 만들기, 다중선형 회귀모델에서 변수의 선택
  • 빅데이터 8일차 - 주행속도와 제동거리 사이의 회귀모델 구하기, 실제 제동거리, 예상 제동거리, 오차 구하기
  • 빅데이터7일차 - 데이터 병합
  • 빅데이터 7일차 - 데이터 집계
포장빵
포장빵
IT공부 및 프로그래밍
  • 포장빵
    포장빵의 IT
    포장빵
  • 전체
    오늘
    어제
    • AI 학습 노트 (113)
      • 기초 수학 (4)
        • 선형대수 (0)
        • 확률통계 (4)
        • 미적분 (0)
        • 최적화 이론 (0)
      • AI & 딥러닝 (1)
        • 이론 (0)
        • 컴퓨터 비전 (0)
        • 자연어 처리 (0)
        • 생성AI (0)
        • 강화학습 (0)
      • 데이터과학 (70)
        • R (47)
        • ADSP (21)
      • 연구 & 자료 (15)
        • 논문 (6)
        • 수료증 (3)
      • 프로그래밍 & 개발 환경 (22)
        • Python (22)
        • 개발도구 (0)
        • 알고리즘 (0)
      • 면접 자료 (1)
  • 블로그 메뉴

    • 링크

    • 공지사항

    • 인기 글

    • 태그

      매핑형(딕셔너리)
      Python Regular Expression Quick Guide
      주성분 분석(PCA)
      python 주요 데이터 타입
      논문
      자료의 종류
      Coursera 1
      지수분포
      확률 분포
      stylegan2
      베르누이분포
      R 도수분포표
      시퀀스형
      시계열 모형
      통계량에 의한 자료 분석
      str lib
      다차원 척보법
      단순선형 회귀분석
      none타입
      Python 크롤링 기초
      yolov9
      k-평균 군집
      R 원 그래프
      상관분석
      CV
      Coursera Python Data Structures
      R 원 그래프 퍼센트
      확률
      yolov10
      k-means clustering
    • 최근 댓글

    • 최근 글

    • hELLO· Designed By정상우.v4.10.3
    포장빵
    빅데이터 8일차 - 회귀분석 관련 용어,회귀의 어원, 단순선형 회귀분석
    상단으로

    티스토리툴바