주성분 분석(PCA) 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환시키는 방법 자료의 차원을 축약시키는데 주로 사용 p차원 변수에서 분산이 가장 큰 선형변환을 첫 번째 주성분이라고 하고, 그 다음 큰 선형변환이 두 번째 주성 분이라고 함 주성분들은 차원을 줄여 예측 모델을 만들 때도 사용 희생되는 정보가 가장 적은 방향을 결정 주성분 분석의 목적 소수의 주성분으로 차원을 축소 다중공선성이 존재하는 경우, 상관성이 없는 주성분으로 변수들을 축소 → 회귀분석이나 의사결정나무 군집분석시 군집화 결과와 연산속도를 개선 주성분 선택법 주성분 분석의 결과에서 누적기여율이 85% 이상이면 주성분의 수로 결정 scree plot을 활용하여 고유값이 수평을 유지하기 전단계로 주성분의 수..
다차원 척도법(Multidimensional Scaling, MDS) 여러 대상 간의 거리가 주어져 있을 때 대상들을 동일한 상대적 거리를 가진 실수 공간의 점들로 배치시키는 방법 주어진 거리는 추상적인 대상들 간의 거리가 될 수도 있고, 실수 공간에서의 거리가 될 수도 있음 주로 자원들의 상대적 관계를 이해하는 시각화 방법의 근간으로 사용 개체들의 거리 계산에는 유클리드 거리 행렬을 활용 관측대상들의 상대적 거리의 정확도를 높이기 위해 적합 정도를 스트레스 값(Stress Value)으로 나타냄 각 개체들을 공간상에 표현하기 위한 방법은 부적합도 기준으로 STRESS나 S-STRESS를 사용 다차원 척도법 종류 ① 계량적 MDS 데이터가 구간척도나 비율척도인 경우 활용 ② 비계량적 MDS 데이터가 순서..
시계열 모형 이동평균모형(Moving Average model , MA 모형) 이동평균 : 과거로부터 현재까지의 시계열 자료를 대상으로 일정기간별 이동평균을 계산하고, 이들의 추 세를 파악하여 다음 기간을 예측 이동평균모형은 유한개의 백색잡음의 선형 결합이므로 언제나 정상성을 만족 1차 이동평균모형, MA(1) 모형 : 가장 간단한 이동평균모형으로 같은 시점의 백색잡음과 바로 전 시점의 백색잡음의 결합으로 이루어진 모형 2차 이동평균모형, MA(2) 모형 : 바로 전 시점의 백색잡음과 시차가 2인 백색잡음의 결합으로 이뤄진 모형 자기상관함수 : p+1 시차 이후 급격히 감소하여 절단된 형태, MA(p) 모형 부분자기상관함수 : 점차 감소하는 형태 예) 전기사용량 : 봄보다 여름이 많아지고 가을에 다시 사..
k-평균 군집(k-means clustering) k-평균 군집의 절차(알고리즘) 군집의 수만큼(k개) 초기값을 지정 각 개체를 가까운 초기값에 할당하여 군집을 형성 각 군집의 평균을 재계산하여 초기값을 갱신 갱신된 값에 대해 위의 할당 과정을 반복하여 k개의 최종 군집을 형성 k-평균 군집에서 군집의 수(k)는 미리 정해주어야 함 k-개의 초기 중심값은 임의로 선택, 자료값 중 무작위 선택 초기 중심점들은 서로 멀리 떨어져 있는 것이 바람직 초기값에 따라 군집 결과가 크게 달라질 수 있음 k-평균 군집은 군집의 매 단계마다 군집 중심으로부터 오차 제곱합을 최소화하는 방향으로 군집을 형성해나 가는(부분 최적화 수행하는) “탐욕적 알고리즘”으로 간주될 수 있으며, 안정된 군집은 보장하나 전체적으로 최적이라..
1. 군집 분석(cluster analysis) 각 개체에 대해 관측된 여러 개의 변수 값들로부터 n개의 개체를 유사한 성격을 가지는 몇 개의 군집으로 집단화하고, 형성된 군집들의 특성을 파악하여 군집들 사이의 관계를 분석하는 다변량 분석 기법 다변량 자료는 별도의 반응변수가 요구되지 않으며, 오로지 개체들 간의 유사성(similarity)에만 기초하여 군집을 형성 이상값 탐지, 심리학, 사회학, 경영학, 생물학 등에 이용 군집화의 방법 : 계층적 군집, 분리 군집, 밀도-기반 군집, 모형-기반 군집, 격자-기반 군집, 커널 -기반 군 집, SOM(Self-Organization Map) 2. 계층적 분석(hierarchical clustering) 가장 유사한 개체를 묶어 나가는 과정을 반복하여 원하는..
시계열 자료 1) 시계열 자료(Time-series Data) 시간의 흐름에 따라 관측된 데이터 시계열 데이터의 분석을 통해 미래의 값을 예측하고 경향, 주기, 계절성 등을 파악하여 활용 2) 정상성(Stationary) 시점에 상관없이 시계열이 특성이 일정하다는 것을 의미 정상성 조건 3가지 ① 평균이 일정함 → 차분 = 현시점 자료 - 전시점 자료 ② 분산이 시점에 의존하지 않고 일정 → 변환 ③ 공분산은 단지 시차에만 의존, 시점 의존하지 않음 3) 시계열 자료의 종류 비정상성 시계열 자료 : 정상성 조건을 하나라도 만족하지 못하는 경우 정상성 시계열 자료 : 비정상 시계열을 시계열 자료로 변환한 자료 Nile # 나일강의 연간 흐름을 나타내는 데이터 1871~1970년도까지 plot(Nile) *..