728x90
반응형

데이터 집계

  • 2차원 데이터는 데이터 그룹에 대해서 합계나 평균을 계산해야 하는 일이 많다.
  • 이와 같은 작업을 집계(aggregation)이라고 한다.
  • R에서는 aggregate() 함수를 통해서 사용이 가능하다.

 

예1) iris 데이터셋에서 각 변수의 품종별 평균 출력

  • aggregate()함수를 이용하여 iris 데이터셋에서 각 품종별로 꽃잎 꽃받침의 폭과 길이의 평균을 출력하기 위한 코드
# iris 데이터셋에서 각 변수의 품종별 평균 출력
agg <- aggregate(iris[,-5],by=list(iris$Species), FUN=mean)
agg

# iris[,-5] 집계 작업을 수행할 대상의 데이터셋 의미
# by = list(iris$Species) # 집계 작업 기준 품종(Species)열의 값 의미
# FUN = mean 집계 작업 내용의 평균(mean) 계산의미 

[그림1] iris 품종별 평균 예제 출력

 

예2) mtcars 데이터셋에서 각 변수의 최댓값 출력

  • aggregate()함수를 이용해 mtcars 데이터셋에서 cyl과 vs를 기준으로 다른 열들의 최댓값을 출력하는 코드
# mtacrs 데이터셋에서 각 변수의 최댓값 출력
head(mtcars)
agg <- aggregate(mtcars, by = list(cyl = mtcars$cyl,
                                   vs = mtcars$vs),FUN=max)
agg

[그림2] mtacrs 데이터셋 최대값 출력

 

 

출처 : 모두를 위한 R 데이터 분석 입문 한빛아카데미

728x90
반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기