728x90
반응형

1. 군집 분석(cluster analysis)

  • 각 개체에 대해 관측된 여러 개의 변수 값들로부터 n개의 개체를 유사한 성격을 가지는 몇 개의 군집으로 집단화하고, 형성된 군집들의 특성을 파악하여 군집들 사이의 관계를 분석하는 다변량 분석 기법
  • 다변량 자료는 별도의 반응변수가 요구되지 않으며, 오로지 개체들 간의 유사성(similarity)에만 기초하여 군집을 형성
  • 이상값 탐지, 심리학, 사회학, 경영학, 생물학 등에 이용
  • 군집화의 방법 : 계층적 군집, 분리 군집, 밀도-기반 군집, 모형-기반 군집, 격자-기반 군집, 커널 -기반 군
  • 집, SOM(Self-Organization Map)

[그림1] 군집화와 분류, 그림 출처 : https://jjeongil.tistory.com/389

 

2. 계층적 분석(hierarchical clustering)

  • 가장 유사한 개체를 묶어 나가는 과정을 반복하여 원하는 개수의 군집을 형성하는 방법
  • 덴드로그램(dendrogram) 형태로 결과가 주어짐 
  • 각 개체는 하나의 군집에만 속하게 됨 
  • 개체간의 유사성(또는 거리)에 대한 다양한 정의가 가능 
  • 작은 군집으로부터 출발하여 군집을 병합해 나가는 병합적 방법과 큰 군집으로부터 출발하여 군집을 분리해 나가는 분할적 방법이 있음 
  • 군집간의 거리 측정 방법 : 최단연결법, 최장연결법, 평균연결법, 중심연결법, 와드연결법

 

3. 거리 측정 방법

  • ① 최단 연결법, 단일연결법(single linkage method) : 거리의 최소값으로 측정 
  • ② 최장 연결법, 완전연결법(complete linkage method) : 거리의 최대값으로 측정 
  • ③ 중심 연결법(centroid linkage) : 두 군집의 중심 간의 거리를 측정 
  • ④ 평균 연결법(average linkage) : 모든 항목에 대한 거리 평균을 구함 
  • ⑤ 와드 연결법(ward linkage) : 군집 내의 오차제곱합에 기초하여 군집을 수행

[그림2] 거리 측정 방법

 

 

4. 거리

  • 연속형 변수 : 유클리디안 거리, 표준화 거리, 마할라노비스 거리, 체비셰프 거리, 맨하탄 거리, 캔버라 거리, 민코우스키 거리 
  • 범주형 변수 : 자카드 거리, 자카드 계수, 코사인 거리, 코사인 유사도(벡터 내적의 코사인 값을 이용)

 

예제 ) USArrest 자료는 미국 50개 주에서 1973년에 발생한 폭행, 살인, 강간 범죄를 주민 100,000명 당 체포된 사람의 통계 자료다.

 

# 정형 데이터 마이닝
data(USArrests) # USArrests자료는 미국 50개 주 1973에 발생한 범죄 자료
str(USArrests)
d <- dist(USArrests, method ="euclidian")
fit <- hclust(d,method="ave")
par(mfrow=c(1,2))
plot(fit)
plot(fit,hang=-1)
par(mfrow=c(1,1))

 

 

[그림3] 정형 데이터 마이닝 예제 출력
[그림4] USArrest 자료 예제 출력

 

728x90
반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기