빅데이터 10일차 - sqldf,plyr 이용한 데이터 분석

2020. 8. 3. 11:14·데이터과학/R
728x90

sqldf를 이용한 데이터 분석

  • R에서 sql 명령어를 사용 가능하게 해주는 패키지
  • SAS에서의 proc sql과 같은 역할을 하는 패키지

 

# sqldf 이용한 데이터 분석
install.packages("sqldf")
library(sqldf)
sqldf("select * from iris")

 

[그림1] sqldf패키지 isntall

 

[그림2] sqldf 패키지 성공적으로 isntall
[그림3] 사용할 library 가져오기
[그림4] sqldf 활용한 sql 명령어 사용

 

 

plyr을 이용한 데이터 분석

  • apply 함수에 기반해 데이터와 출력변수를 동시에 배열로 치환하여 처리하는 패키지
  • split-apply-combine : 데이터를 분리하고 처리한 다음, 다시 결합하는 등 필수적인 데이터 처리 기능을 제공한다.
  • ply() 함수의 첫 글자는 입력 유형, 두 번째 글자는 출력 유형
  • d : data frame
  • a : array
  • l : list
  • ddply : 데이터 프레임을 분할하고 함수를 적용한 뒤 결과를 데이터 프레임으로 반환 
  • ddply(데이터, 그룹 지을 변수, 적용 함수)

 

# plyr 이용한 데이터 분석
install.packages("plyr")
library(plyr)
set.seed(1)
d <- data.frame(year=rep(2012:2014,each=6),count=round(runif(9,0,20))) #2012년~2014년도 6번씩  runif(생성할 난수의 수,최소값, 최대값) 9개, 0부터 20까지
d
ddply(d,"year",summarise,mean.count=mean(count)) # 년도별 평균

 

[그림5] plyr패키지 install
[그림6] plyr패키지 성공적으로  install
[그림7] 라이브러리 가져오고 난수 생성 및 카운트 
[그림8] ddply 활용 분석 결과 출력

 

출처 : 모두를 위한 R 데이터 분석 입문 한빛아카데미

728x90
저작자표시 비영리 변경금지 (새창열림)
'데이터과학/R' 카테고리의 다른 글
  • 빅데이터 10일차 - 결측값 인식, 결측값 처리 방법
  • 빅데이터 10일차 - 데이터 테이블, 데이터 EDA(탐색적 데이터 자료 분석)
  • 빅데이터 9일차 - UCLA 대학원 입학 데이터 로지스틱 회귀 활용
  • 빅데이터9일차 - 로지스틱 회귀분석
포장빵
포장빵
IT공부 및 프로그래밍
  • 포장빵
    포장빵의 IT
    포장빵
  • 전체
    오늘
    어제
    • AI 학습 노트 (113)
      • 기초 수학 (4)
        • 선형대수 (0)
        • 확률통계 (4)
        • 미적분 (0)
        • 최적화 이론 (0)
      • AI & 딥러닝 (1)
        • 이론 (0)
        • 컴퓨터 비전 (0)
        • 자연어 처리 (0)
        • 생성AI (0)
        • 강화학습 (0)
      • 데이터과학 (70)
        • R (47)
        • ADSP (21)
      • 연구 & 자료 (15)
        • 논문 (6)
        • 수료증 (3)
      • 프로그래밍 & 개발 환경 (22)
        • Python (22)
        • 개발도구 (0)
        • 알고리즘 (0)
      • 면접 자료 (1)
  • 블로그 메뉴

    • 링크

    • 공지사항

    • 인기 글

    • 태그

      통계량에 의한 자료 분석
      Python 크롤링 기초
      주성분 분석(PCA)
      k-평균 군집
      yolov9
      다차원 척보법
      R 원 그래프
      베르누이분포
      stylegan2
      R 도수분포표
      시퀀스형
      yolov10
      상관분석
      str lib
      시계열 모형
      확률
      python 주요 데이터 타입
      매핑형(딕셔너리)
      Coursera 1
      Coursera Python Data Structures
      CV
      Python Regular Expression Quick Guide
      none타입
      논문
      지수분포
      단순선형 회귀분석
      자료의 종류
      R 원 그래프 퍼센트
      확률 분포
      k-means clustering
    • 최근 댓글

    • 최근 글

    • hELLO· Designed By정상우.v4.10.3
    포장빵
    빅데이터 10일차 - sqldf,plyr 이용한 데이터 분석
    상단으로

    티스토리툴바