빅데이터11일차 - 대상 데이터 표준화 후 군집화

2020. 8. 4. 11:52·데이터과학/R
728x90

대상 데이터 표준화 후 군집화

  • 데이터와 데이터의 거리를 계산할 때 발생하는 문제의 예 [그림1]
  • A와 B 거리의 계산 값 [그림2]
  • 한계점 : 거리 계산에 있어서 키의 값은 많이 반영되는데(100), 시력은 거리 계산에 있어서 거의 영향을 미치지 못한다.(0.09)
  • 즉, 자료의 범위가 큰 변수가 거리 계산에 있어서 더 많은 영향을 미칠수밖에 없다는 의미다.
  • 분석자들은 모든 변수가 거리 계산에 동등한 영향을 갖도록 하기 위해서 모든 변수의 자료 범위를 0~1 사이로 표준화한 후에 거리 계산
  • 변수 A의 값들을 0~1 사이로 표준화하는 공식 - (x-min(A)) / (max(A) - min(A))

[그림1] 데이터와 데이터의 거리를 계산할 때 발생하는 문제
[그림2] A와 B 거리의 계산 값

 

R 대상 데이터 표준화 후 군집화

# 대상 데이터 표준화 후 군집화
std <- function(X){
  return((X-min(X))/ (max(X)-min(X)))
}
mydata <- apply(iris[,1:4],2,std)

fit <- kmeans(x=mydata, centers=3)
fit
table(iris$Species,fit$cluster)

[그림3] 대상 데이터 표준화 후 군집화 과정 결과
[그림4] table 함수 이용해 깔끔하게 보기

 

 

 

출처 : 모두를 위한 R 데이터 분석 입문 한빛아카데미

728x90
저작자표시 비영리 변경금지 (새창열림)
'데이터과학/R' 카테고리의 다른 글
  • 빅데이터11일차 - k-평균 군집화
  • 빅데이터 10일차 - 머신러닝, 데이터 마이닝, 군집화, 분류,지도학습 비지도학습
  • 빅데이터 10일차 - 이상값(Outlier)인식 방법, 극단값 절단 방법
  • 빅데이터 10일차 - 결측값 인식, 결측값 처리 방법
포장빵
포장빵
IT공부 및 프로그래밍
  • 포장빵
    포장빵의 IT
    포장빵
  • 전체
    오늘
    어제
    • AI 학습 노트 (113)
      • 기초 수학 (4)
        • 선형대수 (0)
        • 확률통계 (4)
        • 미적분 (0)
        • 최적화 이론 (0)
      • AI & 딥러닝 (1)
        • 이론 (0)
        • 컴퓨터 비전 (0)
        • 자연어 처리 (0)
        • 생성AI (0)
        • 강화학습 (0)
      • 데이터과학 (70)
        • R (47)
        • ADSP (21)
      • 연구 & 자료 (15)
        • 논문 (6)
        • 수료증 (3)
      • 프로그래밍 & 개발 환경 (22)
        • Python (22)
        • 개발도구 (0)
        • 알고리즘 (0)
      • 면접 자료 (1)
  • 블로그 메뉴

    • 링크

    • 공지사항

    • 인기 글

    • 태그

      시퀀스형
      지수분포
      R 도수분포표
      시계열 모형
      yolov10
      베르누이분포
      자료의 종류
      none타입
      stylegan2
      Coursera Python Data Structures
      Python Regular Expression Quick Guide
      매핑형(딕셔너리)
      통계량에 의한 자료 분석
      Python 크롤링 기초
      논문
      python 주요 데이터 타입
      R 원 그래프 퍼센트
      단순선형 회귀분석
      R 원 그래프
      주성분 분석(PCA)
      다차원 척보법
      Coursera 1
      CV
      yolov9
      확률 분포
      k-means clustering
      str lib
      상관분석
      확률
      k-평균 군집
    • 최근 댓글

    • 최근 글

    • hELLO· Designed By정상우.v4.10.3
    포장빵
    빅데이터11일차 - 대상 데이터 표준화 후 군집화
    상단으로

    티스토리툴바