
빅데이터11일차 - 대상 데이터 표준화 후 군집화
·
데이터과학/R
대상 데이터 표준화 후 군집화 데이터와 데이터의 거리를 계산할 때 발생하는 문제의 예 [그림1] A와 B 거리의 계산 값 [그림2] 한계점 : 거리 계산에 있어서 키의 값은 많이 반영되는데(100), 시력은 거리 계산에 있어서 거의 영향을 미치지 못한다.(0.09) 즉, 자료의 범위가 큰 변수가 거리 계산에 있어서 더 많은 영향을 미칠수밖에 없다는 의미다. 분석자들은 모든 변수가 거리 계산에 동등한 영향을 갖도록 하기 위해서 모든 변수의 자료 범위를 0~1 사이로 표준화한 후에 거리 계산 변수 A의 값들을 0~1 사이로 표준화하는 공식 - (x-min(A)) / (max(A) - min(A)) R 대상 데이터 표준화 후 군집화 # 대상 데이터 표준화 후 군집화 std