빅데이터 10일차 - 데이터 테이블, 데이터 EDA(탐색적 데이터 자료 분석)

2020. 8. 3. 11:50·데이터과학/R
목차
  1. 데이터 테이블
  2. 데이터 EDA(탐색적 데이터 자료 분석)
728x90

데이터 테이블

  • R에서 가장 많이 사용하는 데이터 핸들링 패키지 중 하나
  • 큰 데이터를 탐색, 연산, 병합하는데 아주 유용하다.
  • 빠른 그루핑과 ordering, 짧은 문장 지원 측면에서 데이터 프레임보다 유용하다.
  • LETTERS : 영문 대문자 26자, letters : 영문 소문자 26자
  • system.time : 인수로 주어진 명령이 수행하는데 걸린 시간을 측정
  • setkey(DT,y) : y를 키로 지정
  • DT[J("C",] : data.table의 J 표현식으로 J("제약조건")으로 표현
# 데이터 테이블
install.packages("data.table") # data.table install
library(data.table) # data.table가져오기
DF <- data.frame(x=runif(2.6e+07),y=rep(LETTERS,each=10000))
df <- data.frame(x=runif(2.6e+07),y=rep(letters,each=10000)) # 10000번 소문자 
system.time(x <- DF[DF$y=="C",]) # C가 나오는 때까지 걸리는 시간
DT <- as.data.table(DF)
setkey(DT,y) # y를 키로 지정
system.time(x <- DT[J("C"),])

 

[그림1] data.table 패키지 install

 

data.table 패키지 성공적으로 install

 

[그림3] data.table 가져오고 DF,df 변수에 데이터 프레임으로 데이터 대입

 

[그림4] DF y  = 대문자로 조건

 

[그림5] df y는 소문자로 설정

 

[그림6] 대문자 C가 나오는 때까지의 시간 측정

 

[그림7] data.table 함수를 이용한 시간 C까지의 측정

 

 

데이터 EDA(탐색적 데이터 자료 분석)

  • 데이터 분석에 앞서 전체적으로 데이터의 특징을 파악하고 데이터를 다양한 각도로 접근
  • summary()함수를 이용해 기초통계량 확인
# 데이터 EDA(탐색적 데이터 자료 분석)
head(iris) # iris head데이터
head(iris,10) # head 10개
str(iris) # str() : 데이터 구조, 변수 개수, 변수 명, 관찰치 개수, 관찰치 미리보기 
summary(iris) # 기초 통계량 확인
cov(iris[,1:4]) # 공분산
cor(iris[,1:4]) # 상관계수

 

[그림8] head함수 이용해 데이터 출력

 

[그림9] str함수를 이용해 관찰치 미리보기

 

[그림10] summary()함수를 이용해 기초 통계량 확인

 

[그림11] 공분산 

 

[그림12] 상관계수

 

 

출처 : 모두를 위한 R 데이터 분석 입문 한빛아카데미

728x90
저작자표시 비영리 변경금지 (새창열림)
  1. 데이터 테이블
  2. 데이터 EDA(탐색적 데이터 자료 분석)
'데이터과학/R' 카테고리의 다른 글
  • 빅데이터 10일차 - 이상값(Outlier)인식 방법, 극단값 절단 방법
  • 빅데이터 10일차 - 결측값 인식, 결측값 처리 방법
  • 빅데이터 10일차 - sqldf,plyr 이용한 데이터 분석
  • 빅데이터 9일차 - UCLA 대학원 입학 데이터 로지스틱 회귀 활용
포장빵
포장빵
IT공부 및 프로그래밍
  • 포장빵
    포장빵의 IT
    포장빵
  • 전체
    오늘
    어제
    • AI 학습 노트 (113)
      • 기초 수학 (4)
        • 선형대수 (0)
        • 확률통계 (4)
        • 미적분 (0)
        • 최적화 이론 (0)
      • AI & 딥러닝 (1)
        • 이론 (0)
        • 컴퓨터 비전 (0)
        • 자연어 처리 (0)
        • 생성AI (0)
        • 강화학습 (0)
      • 데이터과학 (70)
        • R (47)
        • ADSP (21)
      • 연구 & 자료 (15)
        • 논문 (6)
        • 수료증 (3)
      • 프로그래밍 & 개발 환경 (22)
        • Python (22)
        • 개발도구 (0)
        • 알고리즘 (0)
      • 면접 자료 (1)
  • 블로그 메뉴

    • 링크

    • 공지사항

    • 인기 글

    • 태그

      논문
      Coursera 1
      단순선형 회귀분석
      k-means clustering
      yolov9
      확률 분포
      stylegan2
      상관분석
      Python 크롤링 기초
      R 도수분포표
      매핑형(딕셔너리)
      none타입
      통계량에 의한 자료 분석
      확률
      Python Regular Expression Quick Guide
      다차원 척보법
      R 원 그래프
      Coursera Python Data Structures
      k-평균 군집
      시계열 모형
      시퀀스형
      주성분 분석(PCA)
      python 주요 데이터 타입
      CV
      지수분포
      R 원 그래프 퍼센트
      자료의 종류
      베르누이분포
      str lib
      yolov10
    • 최근 댓글

    • 최근 글

    • hELLO· Designed By정상우.v4.10.3
    포장빵
    빅데이터 10일차 - 데이터 테이블, 데이터 EDA(탐색적 데이터 자료 분석)

    개인정보

    • 티스토리 홈
    • 포럼
    • 로그인
    상단으로

    티스토리툴바

    단축키

    내 블로그

    내 블로그 - 관리자 홈 전환
    Q
    Q
    새 글 쓰기
    W
    W

    블로그 게시글

    글 수정 (권한 있는 경우)
    E
    E
    댓글 영역으로 이동
    C
    C

    모든 영역

    이 페이지의 URL 복사
    S
    S
    맨 위로 이동
    T
    T
    티스토리 홈 이동
    H
    H
    단축키 안내
    Shift + /
    ⇧ + /

    * 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.