빅데이터 7일차 - 특이값

2020. 7. 28. 10:17·데이터과학/R
728x90

특이값의 개념

  • 특이값(outlier)은 정상적이라고 생각되는 데이터의 분포 범위 밖에 위치하는 값들을 말하며, '이상치'라고도 부른다.
  • 특이값들은 입력 오류에 의해 발생하기도 하고, 일반인의 몸무게 자료에 씨름선수의 몸무게가 합쳐진 경우처럼 실제로 특이한 값일 수도 있다.
  • 제조 공정에서 불량인 제품을 선별하거나 은행거래 시스템에서 사기거래를 탐지할 때 사용하기도 한다.
  • 데이터 분석에서는 특이값을 포함한 채 평균 등을 계산하면 전체 데이터의 양상을 파악하는 데 왜곡을 가져올 수 있으므로 분석할 때 특이값을 제외하는 경우가 많다.

 

특이값이 포함되어 여부 확인

  1. 논리적으로 있을 수 없는 값이 있는지 찾아보기
  2. 상식을 벗어난 값이 있는지 찾아보기
  3. 상자그림(boxplot)을 통해 찾아보기

*정해진 값의 범위를 벗어난 값이나, 상자그림에서 정상 범위 밖의 동떨어진 값이 있다면 특이값을 의미(동그라미 표시).

 

상자그림을 특이값 확인

  •  boxplot.stats() : 특이값이 얼마인지 측정
num <- data.frame(state.x77)
boxplot(num$Income)
boxplot.stats(num$Income)$out

 

[그림1] 상자그림 특이점 예제 출력
[그림2] 상자그림 특이점 예제 출력

 

특이값을 포함한 행 제거

  • 특이값을 NA로 바꾸고 NA를 포함한 행을 제거하는 방식으로 진행
  • %in% : 어떤 벡터에 비교하고자 하는 값이 포함되어 있는지를 알고 싶을 때
outer.val <- boxplot.stats(num$Income)$out # 특이값 추출 
num$Income[num$Income%in%outer.val] <- NA # 특이값을 NA로 대체한다.
head(num)
new_data <- num[complete.cases(num),] # NA가 포함된 행 제거
head(new_data)

[그림3] 특이값 NA 대체 예제 출력
[그림4] NA 포함 행 제거 예제 출력

 

출처 : 모두를 위한 R 데이터 분석 입문 한빛아카데미

728x90
저작자표시 비영리 변경금지 (새창열림)
'데이터과학/R' 카테고리의 다른 글
  • 빅데이터 7일차 - 데이터 분리, 데이터 선택
  • 빅데이터 7일차 - 벡터,매트릭스,데이터프레임 정렬
  • 빅데이터 7일차 - 결측값 처리 방법
  • 빅데이터 6일차 - 데이터 전처리, 결측값
포장빵
포장빵
IT공부 및 프로그래밍
  • 포장빵
    포장빵의 IT
    포장빵
  • 전체
    오늘
    어제
    • AI 학습 노트 (113)
      • 기초 수학 (4)
        • 선형대수 (0)
        • 확률통계 (4)
        • 미적분 (0)
        • 최적화 이론 (0)
      • AI & 딥러닝 (1)
        • 이론 (0)
        • 컴퓨터 비전 (0)
        • 자연어 처리 (0)
        • 생성AI (0)
        • 강화학습 (0)
      • 데이터과학 (70)
        • R (47)
        • ADSP (21)
      • 연구 & 자료 (15)
        • 논문 (6)
        • 수료증 (3)
      • 프로그래밍 & 개발 환경 (22)
        • Python (22)
        • 개발도구 (0)
        • 알고리즘 (0)
      • 면접 자료 (1)
  • 블로그 메뉴

    • 링크

    • 공지사항

    • 인기 글

    • 태그

      시계열 모형
      R 도수분포표
      상관분석
      자료의 종류
      R 원 그래프
      주성분 분석(PCA)
      CV
      지수분포
      Coursera 1
      yolov10
      Python 크롤링 기초
      매핑형(딕셔너리)
      stylegan2
      k-means clustering
      베르누이분포
      통계량에 의한 자료 분석
      확률 분포
      python 주요 데이터 타입
      확률
      단순선형 회귀분석
      k-평균 군집
      Python Regular Expression Quick Guide
      다차원 척보법
      논문
      none타입
      시퀀스형
      yolov9
      R 원 그래프 퍼센트
      Coursera Python Data Structures
      str lib
    • 최근 댓글

    • 최근 글

    • hELLO· Designed By정상우.v4.10.3
    포장빵
    빅데이터 7일차 - 특이값
    상단으로

    티스토리툴바