728x90
반응형

sqldf를 이용한 데이터 분석

  • R에서 sql 명령어를 사용 가능하게 해주는 패키지
  • SAS에서의 proc sql과 같은 역할을 하는 패키지

 

# sqldf 이용한 데이터 분석
install.packages("sqldf")
library(sqldf)
sqldf("select * from iris")

 

[그림1] sqldf패키지 isntall

 

[그림2] sqldf 패키지 성공적으로 isntall
[그림3] 사용할 library 가져오기
[그림4] sqldf 활용한 sql 명령어 사용

 

 

plyr을 이용한 데이터 분석

  • apply 함수에 기반해 데이터와 출력변수를 동시에 배열로 치환하여 처리하는 패키지
  • split-apply-combine : 데이터를 분리하고 처리한 다음, 다시 결합하는 등 필수적인 데이터 처리 기능을 제공한다.
  • ply() 함수의 첫 글자는 입력 유형, 두 번째 글자는 출력 유형
  • d : data frame
  • a : array
  • l : list
  • ddply : 데이터 프레임을 분할하고 함수를 적용한 뒤 결과를 데이터 프레임으로 반환 
  • ddply(데이터, 그룹 지을 변수, 적용 함수)

 

# plyr 이용한 데이터 분석
install.packages("plyr")
library(plyr)
set.seed(1)
d <- data.frame(year=rep(2012:2014,each=6),count=round(runif(9,0,20))) #2012년~2014년도 6번씩  runif(생성할 난수의 수,최소값, 최대값) 9개, 0부터 20까지
d
ddply(d,"year",summarise,mean.count=mean(count)) # 년도별 평균

 

[그림5] plyr패키지 install
[그림6] plyr패키지 성공적으로  install
[그림7] 라이브러리 가져오고 난수 생성 및 카운트 
[그림8] ddply 활용 분석 결과 출력

 

출처 : 모두를 위한 R 데이터 분석 입문 한빛아카데미

728x90
반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기