주성분 분석(PCA) 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환시키는 방법 자료의 차원을 축약시키는데 주로 사용 p차원 변수에서 분산이 가장 큰 선형변환을 첫 번째 주성분이라고 하고, 그 다음 큰 선형변환이 두 번째 주성 분이라고 함 주성분들은 차원을 줄여 예측 모델을 만들 때도 사용 희생되는 정보가 가장 적은 방향을 결정 주성분 분석의 목적 소수의 주성분으로 차원을 축소 다중공선성이 존재하는 경우, 상관성이 없는 주성분으로 변수들을 축소 → 회귀분석이나 의사결정나무 군집분석시 군집화 결과와 연산속도를 개선 주성분 선택법 주성분 분석의 결과에서 누적기여율이 85% 이상이면 주성분의 수로 결정 scree plot을 활용하여 고유값이 수평을 유지하기 전단계로 주성분의 수..
다차원 척도법(Multidimensional Scaling, MDS) 여러 대상 간의 거리가 주어져 있을 때 대상들을 동일한 상대적 거리를 가진 실수 공간의 점들로 배치시키는 방법 주어진 거리는 추상적인 대상들 간의 거리가 될 수도 있고, 실수 공간에서의 거리가 될 수도 있음 주로 자원들의 상대적 관계를 이해하는 시각화 방법의 근간으로 사용 개체들의 거리 계산에는 유클리드 거리 행렬을 활용 관측대상들의 상대적 거리의 정확도를 높이기 위해 적합 정도를 스트레스 값(Stress Value)으로 나타냄 각 개체들을 공간상에 표현하기 위한 방법은 부적합도 기준으로 STRESS나 S-STRESS를 사용 다차원 척도법 종류 ① 계량적 MDS 데이터가 구간척도나 비율척도인 경우 활용 ② 비계량적 MDS 데이터가 순서..
시계열 모형 이동평균모형(Moving Average model , MA 모형) 이동평균 : 과거로부터 현재까지의 시계열 자료를 대상으로 일정기간별 이동평균을 계산하고, 이들의 추 세를 파악하여 다음 기간을 예측 이동평균모형은 유한개의 백색잡음의 선형 결합이므로 언제나 정상성을 만족 1차 이동평균모형, MA(1) 모형 : 가장 간단한 이동평균모형으로 같은 시점의 백색잡음과 바로 전 시점의 백색잡음의 결합으로 이루어진 모형 2차 이동평균모형, MA(2) 모형 : 바로 전 시점의 백색잡음과 시차가 2인 백색잡음의 결합으로 이뤄진 모형 자기상관함수 : p+1 시차 이후 급격히 감소하여 절단된 형태, MA(p) 모형 부분자기상관함수 : 점차 감소하는 형태 예) 전기사용량 : 봄보다 여름이 많아지고 가을에 다시 사..
k-평균 군집(k-means clustering) k-평균 군집의 절차(알고리즘) 군집의 수만큼(k개) 초기값을 지정 각 개체를 가까운 초기값에 할당하여 군집을 형성 각 군집의 평균을 재계산하여 초기값을 갱신 갱신된 값에 대해 위의 할당 과정을 반복하여 k개의 최종 군집을 형성 k-평균 군집에서 군집의 수(k)는 미리 정해주어야 함 k-개의 초기 중심값은 임의로 선택, 자료값 중 무작위 선택 초기 중심점들은 서로 멀리 떨어져 있는 것이 바람직 초기값에 따라 군집 결과가 크게 달라질 수 있음 k-평균 군집은 군집의 매 단계마다 군집 중심으로부터 오차 제곱합을 최소화하는 방향으로 군집을 형성해나 가는(부분 최적화 수행하는) “탐욕적 알고리즘”으로 간주될 수 있으며, 안정된 군집은 보장하나 전체적으로 최적이라..
대상 데이터 표준화 후 군집화 데이터와 데이터의 거리를 계산할 때 발생하는 문제의 예 [그림1] A와 B 거리의 계산 값 [그림2] 한계점 : 거리 계산에 있어서 키의 값은 많이 반영되는데(100), 시력은 거리 계산에 있어서 거의 영향을 미치지 못한다.(0.09) 즉, 자료의 범위가 큰 변수가 거리 계산에 있어서 더 많은 영향을 미칠수밖에 없다는 의미다. 분석자들은 모든 변수가 거리 계산에 동등한 영향을 갖도록 하기 위해서 모든 변수의 자료 범위를 0~1 사이로 표준화한 후에 거리 계산 변수 A의 값들을 0~1 사이로 표준화하는 공식 - (x-min(A)) / (max(A) - min(A)) R 대상 데이터 표준화 후 군집화 # 대상 데이터 표준화 후 군집화 std
k - 평균 군집화의 과정 1단계 : 대상 데이터셋을 준비한다. 이때 산점도 상의 점 하나가 관측값 하나를 의미한다. 2단계 : 산점도 상에 임의의 점 2개(*와 +)를 만든다. 이 2개의 점은 나중에 군집이 완성되었을 때 각 군집의 중심점이 된다. 따라서 군집의 개수만큼 임의의 점을 생성한다. 3단계 : 산점도 상의 점들 하나하나와 임의의 점 2개와의 거리를 계산하여 두 점 중 가까운 쪽으로 군집을 형성한다. 그 결과 그래프의 왼쪽 위의 점들은(*)군집으로, 오른쪽 아래의 점들은(+)군집으로 묶였다. 4단계 : 두 개의 군집에서 중심점을 다시 계산(*와 +도 포함해 계산) (*)의 위치와 (+)의 위치를 새로 계산한 중심점의 위치로 이동한다. 5단계 : 4단계의 과정을 반복한다. 6단계 : (*)와 (..