728x90
반응형
데이터 테이블
- R에서 가장 많이 사용하는 데이터 핸들링 패키지 중 하나
- 큰 데이터를 탐색, 연산, 병합하는데 아주 유용하다.
- 빠른 그루핑과 ordering, 짧은 문장 지원 측면에서 데이터 프레임보다 유용하다.
- LETTERS : 영문 대문자 26자, letters : 영문 소문자 26자
- system.time : 인수로 주어진 명령이 수행하는데 걸린 시간을 측정
- setkey(DT,y) : y를 키로 지정
- DT[J("C",] : data.table의 J 표현식으로 J("제약조건")으로 표현
# 데이터 테이블
install.packages("data.table") # data.table install
library(data.table) # data.table가져오기
DF <- data.frame(x=runif(2.6e+07),y=rep(LETTERS,each=10000))
df <- data.frame(x=runif(2.6e+07),y=rep(letters,each=10000)) # 10000번 소문자
system.time(x <- DF[DF$y=="C",]) # C가 나오는 때까지 걸리는 시간
DT <- as.data.table(DF)
setkey(DT,y) # y를 키로 지정
system.time(x <- DT[J("C"),])
데이터 EDA(탐색적 데이터 자료 분석)
- 데이터 분석에 앞서 전체적으로 데이터의 특징을 파악하고 데이터를 다양한 각도로 접근
- summary()함수를 이용해 기초통계량 확인
# 데이터 EDA(탐색적 데이터 자료 분석)
head(iris) # iris head데이터
head(iris,10) # head 10개
str(iris) # str() : 데이터 구조, 변수 개수, 변수 명, 관찰치 개수, 관찰치 미리보기
summary(iris) # 기초 통계량 확인
cov(iris[,1:4]) # 공분산
cor(iris[,1:4]) # 상관계수
출처 : 모두를 위한 R 데이터 분석 입문 한빛아카데미
728x90
반응형