1. 군집 분석(cluster analysis) 각 개체에 대해 관측된 여러 개의 변수 값들로부터 n개의 개체를 유사한 성격을 가지는 몇 개의 군집으로 집단화하고, 형성된 군집들의 특성을 파악하여 군집들 사이의 관계를 분석하는 다변량 분석 기법 다변량 자료는 별도의 반응변수가 요구되지 않으며, 오로지 개체들 간의 유사성(similarity)에만 기초하여 군집을 형성 이상값 탐지, 심리학, 사회학, 경영학, 생물학 등에 이용 군집화의 방법 : 계층적 군집, 분리 군집, 밀도-기반 군집, 모형-기반 군집, 격자-기반 군집, 커널 -기반 군 집, SOM(Self-Organization Map) 2. 계층적 분석(hierarchical clustering) 가장 유사한 개체를 묶어 나가는 과정을 반복하여 원하는..
머신러닝의 등장 머신러닝은 방대한 데이터를 컴퓨터가 스스로 분석하고 학습하여 유용한 정보를 얻어내거나 미래를 예측하기 위한 예측모델을 만들어내는 기술이다. 머신러닝의 대표적 기술 중의 하나는 군집화(clusterig)와 분류(classification) 데이터 마이닝과 머신러닝 데이터 마이닝(Data Mining) : 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법 머신러닝(Machine Learning) : 방대한 데이터를 컴퓨터가 스스로 분석하고 학습하여 유용한 정보를 얻어내거나 미래를 예측하기 위한 예측모델을 만들어내는 기술 지도학습과 비지도학습 지도학습(Supervised Data Prediction) : 의사결정나무(Decision Tree), 인공신경망(ANN),..
이상값(Outlier) 인식 방법 ESD(Extreme Studentized Deviation) : 평균으로부터 3 표준편차 떨어진 값 기하평균 - 2.5* 표준편차 < data < 기하평균 + 2.5* 표준편차 사분위수 이용해 제거하기 (상자그림) Q1-1.5*IQR < data < Q3 + 1.5IQR를 벗어난 데이터 극단값 절단 방법 기하평균을 이용한 제거 : geo_mean 하단, 상단 % 이용한 제거 : 10% 절단 극단값 조정 방법 : 상한값과 하한값을 벗어나는 값들을 하한, 상한값으로 바꾸어 활용한다. 출처 : 모두를 위한 R 데이터 분석 입문 한빛아카데미
결측값 인식 결측값 자체의 의미가 있는 경우도 있다. 결측값 처리는 전체 작업 속도에 많은 영향을 준다. 결측값 처리 패키지 : Amelia, Mice, mistools # 결측값 인식 x 분석 -> 결합 출처 : 모두를 위한 R 데이터 분석 입문 한빛아카데미
데이터 테이블 R에서 가장 많이 사용하는 데이터 핸들링 패키지 중 하나 큰 데이터를 탐색, 연산, 병합하는데 아주 유용하다. 빠른 그루핑과 ordering, 짧은 문장 지원 측면에서 데이터 프레임보다 유용하다. LETTERS : 영문 대문자 26자, letters : 영문 소문자 26자 system.time : 인수로 주어진 명령이 수행하는데 걸린 시간을 측정 setkey(DT,y) : y를 키로 지정 DT[J("C",] : data.table의 J 표현식으로 J("제약조건")으로 표현 # 데이터 테이블 install.packages("data.table") # data.table install library(data.table) # data.table가져오기 DF
sqldf를 이용한 데이터 분석 R에서 sql 명령어를 사용 가능하게 해주는 패키지 SAS에서의 proc sql과 같은 역할을 하는 패키지 # sqldf 이용한 데이터 분석 install.packages("sqldf") library(sqldf) sqldf("select * from iris") plyr을 이용한 데이터 분석 apply 함수에 기반해 데이터와 출력변수를 동시에 배열로 치환하여 처리하는 패키지 split-apply-combine : 데이터를 분리하고 처리한 다음, 다시 결합하는 등 필수적인 데이터 처리 기능을 제공한다. ply() 함수의 첫 글자는 입력 유형, 두 번째 글자는 출력 유형 d : data frame a : array l : list ddply : 데이터 프레임을 분할하고 함수..