728x90
반응형
이상값(Outlier) 인식 방법
- ESD(Extreme Studentized Deviation) : 평균으로부터 3 표준편차 떨어진 값
- 기하평균 - 2.5* 표준편차 < data < 기하평균 + 2.5* 표준편차
- 사분위수 이용해 제거하기 (상자그림) Q1-1.5*IQR < data < Q3 + 1.5IQR를 벗어난 데이터
극단값 절단 방법
- 기하평균을 이용한 제거 : geo_mean
- 하단, 상단 % 이용한 제거 : 10% 절단
- 극단값 조정 방법 : 상한값과 하한값을 벗어나는 값들을 하한, 상한값으로 바꾸어 활용한다.
출처 : 모두를 위한 R 데이터 분석 입문 한빛아카데미
728x90
반응형