빅데이터7일차 - 데이터 샘플링,숫자,행 임의로 추출하기

2020. 7. 28. 11:42·데이터과학/R
728x90

데이터 샘플링

  • 샘플링(sampling) : 통계 용어, 주어진 값들이 있을 때 그중에서 임의의 개수의 값들을 추출하는 작업
  • 샘플링이 필요한 경우의 예 : 데이터셋의 크기가 너무 커서 데이터 분석에 시간이 많이 걸리는 경우에, 일부의 데이터만 샘플링하여 대략의 결과를 미리 확인하고자 할 때
  • 복원추출 : 한 번 뽑은 것을 다시 뽑을 수 있는 추출  ex) 주머니에서 꺼낸 구슬을 도로 넣어 원상복구한 다음에 다시 구슬을 뽑음
  • 비복원 추출 : 한 번 뽑은 것을 다시 뽑을 수 없는 추출 ex) 한 번 주머니에서 꺼낸 구슬은 다시 넣지 않는다.

 

 

숫자를 임의로 추출

  • sample() 함수에서 size는 추출할 값의 개수를 지정하는 매개변수이고, replace = FALSE는 비복원 추출을 의미한다.
  • 100개의 숫자 중 10개를 임의로 추출하는 코드로 비복원 추출방식
# 숫자를 임의로 추출하기
num <- 1 : 100
non_recovery <- sample(num,size = 10, replace=FALSE) # 비복원 추출
non_recovery

[그림1] 숫자 10개 임의로 추출 비복원 추출

 

행을 임의로 추출하기

  • iris 데이터셋에서 n개의 행 임의로 추출
# 행을 임의로 추출하기
iris_row <- sample(1:nrow(iris),size=20,replace=FALSE) # 임의로 추출 - 비복원 
iris.20 <- iris[iris_row,] # 20개의 행 추출
dim(iris.20) # 행과 열의 개수 확인
head(iris.20)

[그림2] 행을 임의로 추출하기

 

출처 : 모두를 위한 R 데이터 분석 입문 한빛아카데미

728x90
저작자표시 비영리 변경금지 (새창열림)
'데이터과학/R' 카테고리의 다른 글
  • 빅데이터 7일차 - 데이터 집계
  • 빅데이터 7일차 - set.seed(), 데이터 조합
  • 빅데이터 7일차 - 데이터 분리, 데이터 선택
  • 빅데이터 7일차 - 벡터,매트릭스,데이터프레임 정렬
포장빵
포장빵
IT공부 및 프로그래밍
  • 포장빵
    포장빵의 IT
    포장빵
  • 전체
    오늘
    어제
    • AI 학습 노트 (113)
      • 기초 수학 (4)
        • 선형대수 (0)
        • 확률통계 (4)
        • 미적분 (0)
        • 최적화 이론 (0)
      • AI & 딥러닝 (1)
        • 이론 (0)
        • 컴퓨터 비전 (0)
        • 자연어 처리 (0)
        • 생성AI (0)
        • 강화학습 (0)
      • 데이터과학 (70)
        • R (47)
        • ADSP (21)
      • 연구 & 자료 (15)
        • 논문 (6)
        • 수료증 (3)
      • 프로그래밍 & 개발 환경 (22)
        • Python (22)
        • 개발도구 (0)
        • 알고리즘 (0)
      • 면접 자료 (1)
  • 블로그 메뉴

    • 링크

    • 공지사항

    • 인기 글

    • 태그

      논문
      Coursera Python Data Structures
      단순선형 회귀분석
      시퀀스형
      통계량에 의한 자료 분석
      R 도수분포표
      python 주요 데이터 타입
      주성분 분석(PCA)
      매핑형(딕셔너리)
      str lib
      Python 크롤링 기초
      k-평균 군집
      확률
      CV
      none타입
      Python Regular Expression Quick Guide
      stylegan2
      지수분포
      R 원 그래프
      k-means clustering
      시계열 모형
      다차원 척보법
      확률 분포
      yolov10
      상관분석
      R 원 그래프 퍼센트
      Coursera 1
      베르누이분포
      yolov9
      자료의 종류
    • 최근 댓글

    • 최근 글

    • hELLO· Designed By정상우.v4.10.3
    포장빵
    빅데이터7일차 - 데이터 샘플링,숫자,행 임의로 추출하기
    상단으로

    티스토리툴바