빅데이터11일차 - 대상 데이터 표준화 후 군집화

2020. 8. 4. 11:52·데이터과학/R
728x90

대상 데이터 표준화 후 군집화

  • 데이터와 데이터의 거리를 계산할 때 발생하는 문제의 예 [그림1]
  • A와 B 거리의 계산 값 [그림2]
  • 한계점 : 거리 계산에 있어서 키의 값은 많이 반영되는데(100), 시력은 거리 계산에 있어서 거의 영향을 미치지 못한다.(0.09)
  • 즉, 자료의 범위가 큰 변수가 거리 계산에 있어서 더 많은 영향을 미칠수밖에 없다는 의미다.
  • 분석자들은 모든 변수가 거리 계산에 동등한 영향을 갖도록 하기 위해서 모든 변수의 자료 범위를 0~1 사이로 표준화한 후에 거리 계산
  • 변수 A의 값들을 0~1 사이로 표준화하는 공식 - (x-min(A)) / (max(A) - min(A))

[그림1] 데이터와 데이터의 거리를 계산할 때 발생하는 문제
[그림2] A와 B 거리의 계산 값

 

R 대상 데이터 표준화 후 군집화

# 대상 데이터 표준화 후 군집화
std <- function(X){
  return((X-min(X))/ (max(X)-min(X)))
}
mydata <- apply(iris[,1:4],2,std)

fit <- kmeans(x=mydata, centers=3)
fit
table(iris$Species,fit$cluster)

[그림3] 대상 데이터 표준화 후 군집화 과정 결과
[그림4] table 함수 이용해 깔끔하게 보기

 

 

 

출처 : 모두를 위한 R 데이터 분석 입문 한빛아카데미

728x90
저작자표시 비영리 변경금지
'데이터과학/R' 카테고리의 다른 글
  • 빅데이터11일차 - k-평균 군집화
  • 빅데이터 10일차 - 머신러닝, 데이터 마이닝, 군집화, 분류,지도학습 비지도학습
  • 빅데이터 10일차 - 이상값(Outlier)인식 방법, 극단값 절단 방법
  • 빅데이터 10일차 - 결측값 인식, 결측값 처리 방법
포장빵
포장빵
IT공부 및 프로그래밍
  • 포장빵
    포장빵의 IT
    포장빵
  • 전체
    오늘
    어제
    • AI 학습 노트 (113)
      • 기초 수학 (4)
        • 선형대수 (0)
        • 확률통계 (4)
        • 미적분 (0)
        • 최적화 이론 (0)
      • AI & 딥러닝 (1)
        • 이론 (0)
        • 컴퓨터 비전 (0)
        • 자연어 처리 (0)
        • 생성AI (0)
        • 강화학습 (0)
      • 데이터과학 (70)
        • R (47)
        • ADSP (21)
      • 연구 & 자료 (15)
        • 논문 (6)
        • 수료증 (3)
      • 프로그래밍 & 개발 환경 (22)
        • Python (22)
        • 개발도구 (0)
        • 알고리즘 (0)
      • 면접 자료 (1)
  • 블로그 메뉴

    • 링크

    • 공지사항

    • 인기 글

    • 태그

      시계열 모형
      Python Regular Expression Quick Guide
      매핑형(딕셔너리)
      yolov10
      단순선형 회귀분석
      k-means clustering
      python 주요 데이터 타입
      주성분 분석(PCA)
      확률 분포
      지수분포
      상관분석
      R 도수분포표
      Coursera Python Data Structures
      str lib
      베르누이분포
      R 원 그래프 퍼센트
      다차원 척보법
      시퀀스형
      R 원 그래프
      통계량에 의한 자료 분석
      stylegan2
      자료의 종류
      Python 크롤링 기초
      none타입
      확률
      Coursera 1
      논문
      yolov9
      CV
      k-평균 군집
    • 최근 댓글

    • 최근 글

    • hELLO· Designed By정상우.v4.10.3
    포장빵
    빅데이터11일차 - 대상 데이터 표준화 후 군집화
    상단으로

    티스토리툴바