728x90
반응형

회귀분석 관련 용어

  • 증권회사에서는 미래의 주식 시세를 예측하기 위해 많은 연구
  • 주식 시세는 기업의 매출액, 원유가격, 구겢정세, 정부정책 발표 등 매우 많은 요인들에 의해 영향 받는다.
  • 독립변수(independent variable) : 주식시세에 영향을 미치는 요인들(기업의 매출액, 원유가격, 국제정세, 정부정책 발표)
  • 종속변수(dependent variable) : 독립변수의 영향에 따라 값이 결정되는 주식시세
  • 독립변수와 종속변수를 다른 용어로 각각 설명변수(explanatory variable)와 반응변수(response variable)라고도 한다.
  • 예측모델(prediction model) 또는 예측모형 : 독립변수에 해당하는 자료와 종속변수에 해당하는 자료를 모아 관계를 분석하고 이를 예측에 사용할 수 있는 통계적 방법으로 정리한 것
  • 회귀분석(regression analysis) : 회귀 이론을 기초로 독립변수(설명변수)가 종속변수(반응변수)에 미치는 영향을 파악하여 예측 모델을 도출하는 통계적 방법
  • 회귀분석은 여러 가지 종류가 있는데, 회귀분석에서 독립변수의 수가 하나인 경우를 단순 회귀(simple regression)라고 하고, 독립변수의 수가 두 개 이상인 경우를 다중 회귀(multiple regression)라고 한다.

 

회귀의 어원

  • 회귀분석은 우생학을 만들어낸 프랜시스 골턴의 아이디어에서 시작되었다.
  • 골턴은 유전학을 연구하던 중 아버지와 아들의 키에 대한 데이터를 접하게 되었는데, 대체로 아버지가 크면 아들도 크고 아버지가 작으면 아들도 작은 경향이 있어보였다.
  • 그러나 키가 큰 아버지의 아들도 키가 크긴 하지만 아버지보단 작아지는 경향이 있고, 키가 작은 아버지의 아들도 키가 작긴 하지만 아버지보단 커지는 경향이 있었다.
  • 한편 꼭 평균으로 회귀하는 것만은 아닌 것이, 성장 환경이나 돌연변이처럼 어쩔 수 없이 생기는 오차가 있다.
  • 그렇다면 정확하게는 아니라도, 어느 정도의 오차는 있더라도 아버지의 키만 보고 아들의 키를 대강 맞출 수 있지는 않을까?

 

단순선형 회귀분석의 목표

  • 단순선형 회귀 : 독립변수(x)와 종속변수(y) 사이의 선형관계를 파악하고 이를 예측에 활용하는 통계적 방법, ex) 기온(x) 자료를 가지고 아이스크림 판매량(y)를 옟그하는 문제
  • 단순선형 회귀모델 또는 단순선형 회귀식은 다음과 같이 1차식의 형태를 가진다.

[그림1] 단순선형 회귀분석 예제 

 

회귀계수의 추정(최소제곱법, 최소자승법)

  • 측정값을 기초로 하여 적당한 제곱합을 만들고 그것을 최소로 하는값을 구하여 측정결과를 처리하는 방법으로 잔차체곱이 가장 작은 선을 구하는 것을 의미한다.

 

[그림2] 회귀계수의 추정

 

 

회귀분석의 검정 

  • 회귀계수 β10이면 입력변수 xy 사이에 아무런 인과관계가 없음
  • 회귀계수 β1 0이면 적합된 추정식은 아무 의미가 없음(귀무가설 β1 =0, 대립가설 β1 0)

 

 

③ 결정계수(R2)

  • 결정계수가 1에 가까울수록 회귀모형이 자료를 잘 설명한다.
  • 다변량 회귀분석에서는 독립변수의 수가 많아지면 결정계수가 높아지므로 단점을 보완하기 위해 수정된 결정계수(adjusted R2)를 활용한다.

 

 

 

단순선형 회귀분석 예

 

x <- c(19,23,25,28,30,37,38,49,50)
y <- c(32,49,39,55,69,82,60,90,88)
lm(y~x) 
# lm()함수는 linear regresssion의 핵심, 회귀분석, 단일 계층 분석, 공분산 분석에 이용 가능하다.
# fomula() - 적용할 모델의 내용
# 데이터의 길이는 같아야 한다.
summary(lm(y~x)) 

** lm() 함수 알아두기.

 

[그림3] lm()함수 사용 예제 출력
[그림4] summary 함수로 요약 통계 확인

1. 독립변수 : 예약대수

2. 종속변수 : 판매대수

3. 회귀식 : 판매대수 = 4.784 + 1.742 * 예약대수

4. 귀무가설 : β1=0(종속변수는 독립변수와 인과관계가 없음)

5. 대립가설 : β10(종속변수는 독립변수와 인과관계가 있음)

6. 회귀계수 β 1 p값은 0.0005545로서 0.05보다 작으므로 회귀계수가 유의미하다.

7. 결정계수와 수정된 결정계수 모두 0.8362, 0.8128로서 데이터 설명력이 높다.

 

 

 

출처 : 모두를 위한 R 데이터 분석 입문 한빛아카데미

728x90
반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기