728x90
반응형

데이터 샘플링

  • 샘플링(sampling) : 통계 용어, 주어진 값들이 있을 때 그중에서 임의의 개수의 값들을 추출하는 작업
  • 샘플링이 필요한 경우의 예 : 데이터셋의 크기가 너무 커서 데이터 분석에 시간이 많이 걸리는 경우에, 일부의 데이터만 샘플링하여 대략의 결과를 미리 확인하고자 할 때
  • 복원추출 : 한 번 뽑은 것을 다시 뽑을 수 있는 추출  ex) 주머니에서 꺼낸 구슬을 도로 넣어 원상복구한 다음에 다시 구슬을 뽑음
  • 비복원 추출 : 한 번 뽑은 것을 다시 뽑을 수 없는 추출 ex) 한 번 주머니에서 꺼낸 구슬은 다시 넣지 않는다.

 

 

숫자를 임의로 추출

  • sample() 함수에서 size는 추출할 값의 개수를 지정하는 매개변수이고, replace = FALSE는 비복원 추출을 의미한다.
  • 100개의 숫자 중 10개를 임의로 추출하는 코드로 비복원 추출방식
# 숫자를 임의로 추출하기
num <- 1 : 100
non_recovery <- sample(num,size = 10, replace=FALSE) # 비복원 추출
non_recovery

[그림1] 숫자 10개 임의로 추출 비복원 추출

 

행을 임의로 추출하기

  • iris 데이터셋에서 n개의 행 임의로 추출
# 행을 임의로 추출하기
iris_row <- sample(1:nrow(iris),size=20,replace=FALSE) # 임의로 추출 - 비복원 
iris.20 <- iris[iris_row,] # 20개의 행 추출
dim(iris.20) # 행과 열의 개수 확인
head(iris.20)

[그림2] 행을 임의로 추출하기

 

출처 : 모두를 위한 R 데이터 분석 입문 한빛아카데미

728x90
반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기