![](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fcnt7w9%2FbtqF8uH7qpo%2F312qMPipRoKJjChDEFp4c1%2Fimg.png)
IT
![](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FMjJWp%2FbtqF8u853gt%2FfQRPk12j7wpQpayIAeaKt0%2Fimg.png)
로지스틱 회귀분석의 개념 로지스틱 회귀(logistic regression)란 회귀모델에서 종속변수의 값의 형태가 연속형 숫자가 아닌 범주형 값인 경우를 다루기 위해서 만들어진 통계적 방법이다. ex) irsis 데이터셋에서 4개의 측정값을 가지고 품종을 예측. 품종이 범주형 값 R에서 로지스틱 회귀 모델은 glm()함수 이용한다. 로지스틱 회귀모델 만들기 로지스틱 회귀도 기본적으로 회귀 기법이기 떄문에 종속변수가 숫자로 표현되어야 한다. 예를 들어서 YES와 NO는 0과1로, setosa, versicolor, virginica는 1,2,3과 같이 숫자로 바꾼 후에 로지스틱 회귀를 적용해야 한다. # 로지스틱 회귀모델 만들기 iris.new
![](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fbk0cdb%2FbtqGbpZzrMu%2FbpMgrBrNDwnMm2ADfrFdB1%2Fimg.png)
시계열 자료 1) 시계열 자료(Time-series Data) 시간의 흐름에 따라 관측된 데이터 시계열 데이터의 분석을 통해 미래의 값을 예측하고 경향, 주기, 계절성 등을 파악하여 활용 2) 정상성(Stationary) 시점에 상관없이 시계열이 특성이 일정하다는 것을 의미 정상성 조건 3가지 ① 평균이 일정함 → 차분 = 현시점 자료 - 전시점 자료 ② 분산이 시점에 의존하지 않고 일정 → 변환 ③ 공분산은 단지 시차에만 의존, 시점 의존하지 않음 3) 시계열 자료의 종류 비정상성 시계열 자료 : 정상성 조건을 하나라도 만족하지 못하는 경우 정상성 시계열 자료 : 비정상 시계열을 시계열 자료로 변환한 자료 Nile # 나일강의 연간 흐름을 나타내는 데이터 1871~1970년도까지 plot(Nile) *..
![](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FqdPzO%2FbtqF9mCAn4p%2FkeaZipYlnizrREnRioUuVk%2Fimg.png)
회귀분석의 가정 ① 선형성 설명변수(x)와 반응변수(y)가 선형적 관계에 있음 - x(독립변수), y(종속변수) ② 독립성 오차(잔차)와 설명변수(x)의 값이 관련되어 있지 않음 ③ 등분산성 설명변수(x) 값에 관계없이 잔차들의 분산이 일정한 형태를 보임 ④ 비상관성 관측치들의 오차들끼리 상관이 없어야 한다. ⑤ 정상성(정규성) 오차의 분포가 정규분포를 이루어야 한다. 검정 방식들 : 히스토그램, Q-Q plot, Kolmogolov-Smirnov 검정, Shapiro-Wilk 검정 출처 : 2020 전면 개정판 ADsP 데이터 분석 준전문가 DATAEDU
![](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbS6fdL%2FbtqF6ED78Ck%2F4fXlhVlvYNt3IEVfN080S1%2Fimg.png)
최적회귀방정식의 선택 1) 설명변수 선택 가능한 범위 내에서 적은 수의 설명변수 포함 2) 모형 선택 : 모든 가능한 조합의 회귀분석 AIC(Akaike information criterion)나 BIC(Bayesian information criterion) 기준으로 가장 적합한 회귀모형을 선택 AIC와 BIC가 가장 작은 값을 갖는 모형을 최적의 모형으로 선택 3) 단계적 변수 선택(Stepwise Variable Selection) 전진 선택법(forward selection) : 절편만 있는 상수 모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가 후진 제거법(backward elimination) : 독립변수 후보 모두를 포함한 모형에서 출발해 제곱합의 기준으로 가장 적은 영..