빅데이터 7일차 - 데이터 분리, 데이터 선택

2020. 7. 28. 10:51·데이터과학/R
목차
  1. 데이터 분리
  2. 데이터 선택
728x90

데이터 분리

  • 하나의 데이터셋을 열의 값을 기준으로 여러 개의 데이터셋으로 분리할 때에는 split() 함수를 이용
# 데이터 분리
# sp <- split('분리할 데이터', '분리 조건')
sp <- split(iris, iris$Species) # 품종별로 데이터 분리
sp # 분리 결과
summary(sp) # 분리 결과 요약
sp$versicolor # versicolor 품종의 데이터 확인

[그림1] setosa 품종
[그림2] versicolor 품종
[그림3] virginica 품종
[그림4] 분리 결과 요약

 

[그림5] versicolor 특정 분리 데이터만 출력

 

 

데이터 선택

  • 데이터셋으로부터 조건에 맞는 행들을 추출할 때는 subset()함수를 이용
  • select매개변수는 추출할 열을 지정하는 역할
# 데이터 선택
# subset('데이터 이름', '조건')
subset(iris, Species =="versicolor") # versicolor만 추출
subset(iris, Sepal.Length >= 7.5) # Sepal.Length 7.5 이상만
subset(iris, Sepal.Length > 4.0 & Sepal.Length < 5.0) # 4.0 ~ 5.0까지만 출력
subset(iris, Sepal.Length > 7.6, select=c(Petal.Length,Petal.Width)) # 7.6이상, petal.Legnth,Petal.Width만 출력

[그림6] 데이터 선택, versicolor만
[그림7] Sepa.Length 7.5이상만 선택
[그림8] Sepal.Length 4.0~ 5.0
[그림9] iris 7.6이상, Petal.Length, Width만 출력

 

 

출처 : 모두를 위한 R 데이터 분석 입문 한빛아카데미

728x90
저작자표시 비영리 변경금지 (새창열림)
  1. 데이터 분리
  2. 데이터 선택
'데이터과학/R' 카테고리의 다른 글
  • 빅데이터 7일차 - set.seed(), 데이터 조합
  • 빅데이터7일차 - 데이터 샘플링,숫자,행 임의로 추출하기
  • 빅데이터 7일차 - 벡터,매트릭스,데이터프레임 정렬
  • 빅데이터 7일차 - 특이값
포장빵
포장빵
IT공부 및 프로그래밍
  • 포장빵
    포장빵의 IT
    포장빵
  • 전체
    오늘
    어제
    • AI 학습 노트 (113)
      • 기초 수학 (4)
        • 선형대수 (0)
        • 확률통계 (4)
        • 미적분 (0)
        • 최적화 이론 (0)
      • AI & 딥러닝 (1)
        • 이론 (0)
        • 컴퓨터 비전 (0)
        • 자연어 처리 (0)
        • 생성AI (0)
        • 강화학습 (0)
      • 데이터과학 (70)
        • R (47)
        • ADSP (21)
      • 연구 & 자료 (15)
        • 논문 (6)
        • 수료증 (3)
      • 프로그래밍 & 개발 환경 (22)
        • Python (22)
        • 개발도구 (0)
        • 알고리즘 (0)
      • 면접 자료 (1)
  • 블로그 메뉴

    • 링크

    • 공지사항

    • 인기 글

    • 태그

      Coursera 1
      상관분석
      통계량에 의한 자료 분석
      Python 크롤링 기초
      stylegan2
      자료의 종류
      CV
      R 원 그래프 퍼센트
      yolov10
      python 주요 데이터 타입
      none타입
      str lib
      yolov9
      확률
      매핑형(딕셔너리)
      베르누이분포
      단순선형 회귀분석
      다차원 척보법
      k-평균 군집
      R 원 그래프
      확률 분포
      지수분포
      Python Regular Expression Quick Guide
      주성분 분석(PCA)
      논문
      R 도수분포표
      Coursera Python Data Structures
      시퀀스형
      시계열 모형
      k-means clustering
    • 최근 댓글

    • 최근 글

    • hELLO· Designed By정상우.v4.10.3
    포장빵
    빅데이터 7일차 - 데이터 분리, 데이터 선택

    개인정보

    • 티스토리 홈
    • 포럼
    • 로그인
    상단으로

    티스토리툴바

    단축키

    내 블로그

    내 블로그 - 관리자 홈 전환
    Q
    Q
    새 글 쓰기
    W
    W

    블로그 게시글

    글 수정 (권한 있는 경우)
    E
    E
    댓글 영역으로 이동
    C
    C

    모든 영역

    이 페이지의 URL 복사
    S
    S
    맨 위로 이동
    T
    T
    티스토리 홈 이동
    H
    H
    단축키 안내
    Shift + /
    ⇧ + /

    * 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.