sqldf를 이용한 데이터 분석 R에서 sql 명령어를 사용 가능하게 해주는 패키지 SAS에서의 proc sql과 같은 역할을 하는 패키지 # sqldf 이용한 데이터 분석 install.packages("sqldf") library(sqldf) sqldf("select * from iris") plyr을 이용한 데이터 분석 apply 함수에 기반해 데이터와 출력변수를 동시에 배열로 치환하여 처리하는 패키지 split-apply-combine : 데이터를 분리하고 처리한 다음, 다시 결합하는 등 필수적인 데이터 처리 기능을 제공한다. ply() 함수의 첫 글자는 입력 유형, 두 번째 글자는 출력 유형 d : data frame a : array l : list ddply : 데이터 프레임을 분할하고 함수..
빅데이터/R
로지스틱 회귀분석의 개념 로지스틱 회귀(logistic regression)란 회귀모델에서 종속변수의 값의 형태가 연속형 숫자가 아닌 범주형 값인 경우를 다루기 위해서 만들어진 통계적 방법이다. ex) irsis 데이터셋에서 4개의 측정값을 가지고 품종을 예측. 품종이 범주형 값 R에서 로지스틱 회귀 모델은 glm()함수 이용한다. 로지스틱 회귀모델 만들기 로지스틱 회귀도 기본적으로 회귀 기법이기 떄문에 종속변수가 숫자로 표현되어야 한다. 예를 들어서 YES와 NO는 0과1로, setosa, versicolor, virginica는 1,2,3과 같이 숫자로 바꾼 후에 로지스틱 회귀를 적용해야 한다. # 로지스틱 회귀모델 만들기 iris.new
최적회귀방정식의 선택 1) 설명변수 선택 가능한 범위 내에서 적은 수의 설명변수 포함 2) 모형 선택 : 모든 가능한 조합의 회귀분석 AIC(Akaike information criterion)나 BIC(Bayesian information criterion) 기준으로 가장 적합한 회귀모형을 선택 AIC와 BIC가 가장 작은 값을 갖는 모형을 최적의 모형으로 선택 3) 단계적 변수 선택(Stepwise Variable Selection) 전진 선택법(forward selection) : 절편만 있는 상수 모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가 후진 제거법(backward elimination) : 독립변수 후보 모두를 포함한 모형에서 출발해 제곱합의 기준으로 가장 적은 영..
Prestige 데이터셋 car 패키지의 Prestige 데이터셋 행의 이름은 직군을 의미한다. education : 교육연수(독립변수) income : 연봉(종속변수) women : 여성의 비율(독립변수) prestige : 직군에 대한 평판도(독립변수) # Prestige 데이터셋 활용 install.packages("car") # car 패키지 install library(car) # car 패키지 가져오기 head(Prestige) # Prestige데이터셋 head newdata
다중선형 회귀모델 만들기 단순선형 회귀가 하나의 독립변수를 다룬다면 다중선형 회귀는 여러 개의 독립변수를 다룬다. ex) 키와 몸무게를 가지고 혈당 수치를 예측 - 키(x1), 몸무게(x2) : 독립변수, 혈당수치(y) : 종속변수 다중 회귀모델(다중 회귀식)의 일반적인 형태 - 그림1 R에서는 다중 회귀모델도 lm()함수를 이용해 구한다. Mass 패키지의 "Cars93"이라는 데이터셋의 가격(Price)를 종속변수로 선정하고 엔진 크기(EngineSize), RPM, 무게(Weight)를 이용해 다중회귀분석 예제 # 다중선형 회귀분석 library(MASS) # MASS패키지 가져오기. head(Cars93) # cars93 head로 확인 attach(Cars93) # attach : 데이터를 R ..