통계적 이해 - 군집 분석, 계측적 분석, 거리 측정 방법, 거리

2020. 8. 4. 04:45·데이터과학/ADSP
728x90

1. 군집 분석(cluster analysis)

  • 각 개체에 대해 관측된 여러 개의 변수 값들로부터 n개의 개체를 유사한 성격을 가지는 몇 개의 군집으로 집단화하고, 형성된 군집들의 특성을 파악하여 군집들 사이의 관계를 분석하는 다변량 분석 기법
  • 다변량 자료는 별도의 반응변수가 요구되지 않으며, 오로지 개체들 간의 유사성(similarity)에만 기초하여 군집을 형성
  • 이상값 탐지, 심리학, 사회학, 경영학, 생물학 등에 이용
  • 군집화의 방법 : 계층적 군집, 분리 군집, 밀도-기반 군집, 모형-기반 군집, 격자-기반 군집, 커널 -기반 군
  • 집, SOM(Self-Organization Map)

[그림1] 군집화와 분류, 그림 출처 : https://jjeongil.tistory.com/389

 

2. 계층적 분석(hierarchical clustering)

  • 가장 유사한 개체를 묶어 나가는 과정을 반복하여 원하는 개수의 군집을 형성하는 방법
  • 덴드로그램(dendrogram) 형태로 결과가 주어짐 
  • 각 개체는 하나의 군집에만 속하게 됨 
  • 개체간의 유사성(또는 거리)에 대한 다양한 정의가 가능 
  • 작은 군집으로부터 출발하여 군집을 병합해 나가는 병합적 방법과 큰 군집으로부터 출발하여 군집을 분리해 나가는 분할적 방법이 있음 
  • 군집간의 거리 측정 방법 : 최단연결법, 최장연결법, 평균연결법, 중심연결법, 와드연결법

 

3. 거리 측정 방법

  • ① 최단 연결법, 단일연결법(single linkage method) : 거리의 최소값으로 측정 
  • ② 최장 연결법, 완전연결법(complete linkage method) : 거리의 최대값으로 측정 
  • ③ 중심 연결법(centroid linkage) : 두 군집의 중심 간의 거리를 측정 
  • ④ 평균 연결법(average linkage) : 모든 항목에 대한 거리 평균을 구함 
  • ⑤ 와드 연결법(ward linkage) : 군집 내의 오차제곱합에 기초하여 군집을 수행

[그림2] 거리 측정 방법

 

 

4. 거리

  • 연속형 변수 : 유클리디안 거리, 표준화 거리, 마할라노비스 거리, 체비셰프 거리, 맨하탄 거리, 캔버라 거리, 민코우스키 거리 
  • 범주형 변수 : 자카드 거리, 자카드 계수, 코사인 거리, 코사인 유사도(벡터 내적의 코사인 값을 이용)

 

예제 ) USArrest 자료는 미국 50개 주에서 1973년에 발생한 폭행, 살인, 강간 범죄를 주민 100,000명 당 체포된 사람의 통계 자료다.

 

# 정형 데이터 마이닝
data(USArrests) # USArrests자료는 미국 50개 주 1973에 발생한 범죄 자료
str(USArrests)
d <- dist(USArrests, method ="euclidian")
fit <- hclust(d,method="ave")
par(mfrow=c(1,2))
plot(fit)
plot(fit,hang=-1)
par(mfrow=c(1,1))

 

 

[그림3] 정형 데이터 마이닝 예제 출력
[그림4] USArrest 자료 예제 출력

 

728x90
저작자표시 비영리 변경금지
'데이터과학/ADSP' 카테고리의 다른 글
  • 통계적 이해 - 시계열 모형
  • 통계적 이해 - k 평균 군집(k-means clustering)
  • 통계적 이해 - 시계열 자료
  • 통계적 이해 - 회귀분석의 가정
포장빵
포장빵
IT공부 및 프로그래밍
  • 포장빵
    포장빵의 IT
    포장빵
  • 전체
    오늘
    어제
    • AI 학습 노트 (113)
      • 기초 수학 (4)
        • 선형대수 (0)
        • 확률통계 (4)
        • 미적분 (0)
        • 최적화 이론 (0)
      • AI & 딥러닝 (1)
        • 이론 (0)
        • 컴퓨터 비전 (0)
        • 자연어 처리 (0)
        • 생성AI (0)
        • 강화학습 (0)
      • 데이터과학 (70)
        • R (47)
        • ADSP (21)
      • 연구 & 자료 (15)
        • 논문 (6)
        • 수료증 (3)
      • 프로그래밍 & 개발 환경 (22)
        • Python (22)
        • 개발도구 (0)
        • 알고리즘 (0)
      • 면접 자료 (1)
  • 블로그 메뉴

    • 링크

    • 공지사항

    • 인기 글

    • 태그

      주성분 분석(PCA)
      베르누이분포
      상관분석
      다차원 척보법
      python 주요 데이터 타입
      매핑형(딕셔너리)
      Python Regular Expression Quick Guide
      k-평균 군집
      k-means clustering
      확률
      지수분포
      논문
      자료의 종류
      통계량에 의한 자료 분석
      yolov9
      R 도수분포표
      Coursera Python Data Structures
      확률 분포
      CV
      시계열 모형
      R 원 그래프
      yolov10
      R 원 그래프 퍼센트
      단순선형 회귀분석
      Python 크롤링 기초
      str lib
      시퀀스형
      none타입
      stylegan2
      Coursera 1
    • 최근 댓글

    • 최근 글

    • hELLO· Designed By정상우.v4.10.3
    포장빵
    통계적 이해 - 군집 분석, 계측적 분석, 거리 측정 방법, 거리
    상단으로

    티스토리툴바