대상 데이터 표준화 후 군집화 데이터와 데이터의 거리를 계산할 때 발생하는 문제의 예 [그림1] A와 B 거리의 계산 값 [그림2] 한계점 : 거리 계산에 있어서 키의 값은 많이 반영되는데(100), 시력은 거리 계산에 있어서 거의 영향을 미치지 못한다.(0.09) 즉, 자료의 범위가 큰 변수가 거리 계산에 있어서 더 많은 영향을 미칠수밖에 없다는 의미다. 분석자들은 모든 변수가 거리 계산에 동등한 영향을 갖도록 하기 위해서 모든 변수의 자료 범위를 0~1 사이로 표준화한 후에 거리 계산 변수 A의 값들을 0~1 사이로 표준화하는 공식 - (x-min(A)) / (max(A) - min(A)) R 대상 데이터 표준화 후 군집화 # 대상 데이터 표준화 후 군집화 std
빅데이터/R
k - 평균 군집화의 과정 1단계 : 대상 데이터셋을 준비한다. 이때 산점도 상의 점 하나가 관측값 하나를 의미한다. 2단계 : 산점도 상에 임의의 점 2개(*와 +)를 만든다. 이 2개의 점은 나중에 군집이 완성되었을 때 각 군집의 중심점이 된다. 따라서 군집의 개수만큼 임의의 점을 생성한다. 3단계 : 산점도 상의 점들 하나하나와 임의의 점 2개와의 거리를 계산하여 두 점 중 가까운 쪽으로 군집을 형성한다. 그 결과 그래프의 왼쪽 위의 점들은(*)군집으로, 오른쪽 아래의 점들은(+)군집으로 묶였다. 4단계 : 두 개의 군집에서 중심점을 다시 계산(*와 +도 포함해 계산) (*)의 위치와 (+)의 위치를 새로 계산한 중심점의 위치로 이동한다. 5단계 : 4단계의 과정을 반복한다. 6단계 : (*)와 (..
머신러닝의 등장 머신러닝은 방대한 데이터를 컴퓨터가 스스로 분석하고 학습하여 유용한 정보를 얻어내거나 미래를 예측하기 위한 예측모델을 만들어내는 기술이다. 머신러닝의 대표적 기술 중의 하나는 군집화(clusterig)와 분류(classification) 데이터 마이닝과 머신러닝 데이터 마이닝(Data Mining) : 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법 머신러닝(Machine Learning) : 방대한 데이터를 컴퓨터가 스스로 분석하고 학습하여 유용한 정보를 얻어내거나 미래를 예측하기 위한 예측모델을 만들어내는 기술 지도학습과 비지도학습 지도학습(Supervised Data Prediction) : 의사결정나무(Decision Tree), 인공신경망(ANN),..
이상값(Outlier) 인식 방법 ESD(Extreme Studentized Deviation) : 평균으로부터 3 표준편차 떨어진 값 기하평균 - 2.5* 표준편차 < data < 기하평균 + 2.5* 표준편차 사분위수 이용해 제거하기 (상자그림) Q1-1.5*IQR < data < Q3 + 1.5IQR를 벗어난 데이터 극단값 절단 방법 기하평균을 이용한 제거 : geo_mean 하단, 상단 % 이용한 제거 : 10% 절단 극단값 조정 방법 : 상한값과 하한값을 벗어나는 값들을 하한, 상한값으로 바꾸어 활용한다. 출처 : 모두를 위한 R 데이터 분석 입문 한빛아카데미
결측값 인식 결측값 자체의 의미가 있는 경우도 있다. 결측값 처리는 전체 작업 속도에 많은 영향을 준다. 결측값 처리 패키지 : Amelia, Mice, mistools # 결측값 인식 x 분석 -> 결합 출처 : 모두를 위한 R 데이터 분석 입문 한빛아카데미
데이터 테이블 R에서 가장 많이 사용하는 데이터 핸들링 패키지 중 하나 큰 데이터를 탐색, 연산, 병합하는데 아주 유용하다. 빠른 그루핑과 ordering, 짧은 문장 지원 측면에서 데이터 프레임보다 유용하다. LETTERS : 영문 대문자 26자, letters : 영문 소문자 26자 system.time : 인수로 주어진 명령이 수행하는데 걸린 시간을 측정 setkey(DT,y) : y를 키로 지정 DT[J("C",] : data.table의 J 표현식으로 J("제약조건")으로 표현 # 데이터 테이블 install.packages("data.table") # data.table install library(data.table) # data.table가져오기 DF