특이값의 개념 특이값(outlier)은 정상적이라고 생각되는 데이터의 분포 범위 밖에 위치하는 값들을 말하며, '이상치'라고도 부른다. 특이값들은 입력 오류에 의해 발생하기도 하고, 일반인의 몸무게 자료에 씨름선수의 몸무게가 합쳐진 경우처럼 실제로 특이한 값일 수도 있다. 제조 공정에서 불량인 제품을 선별하거나 은행거래 시스템에서 사기거래를 탐지할 때 사용하기도 한다. 데이터 분석에서는 특이값을 포함한 채 평균 등을 계산하면 전체 데이터의 양상을 파악하는 데 왜곡을 가져올 수 있으므로 분석할 때 특이값을 제외하는 경우가 많다. 특이값이 포함되어 여부 확인 논리적으로 있을 수 없는 값이 있는지 찾아보기 상식을 벗어난 값이 있는지 찾아보기 상자그림(boxplot)을 통해 찾아보기 *정해진 값의 범위를 벗어난..
결측값 처리 방법 단순 대치법(Single imputation) 다중 대치법(Multiple imputation) m번의 대치를 통해 m개의 가상적 완전 자료를 만드는 방법 대치(Imputation step) -> 분석(analysis step) -> 결합(combination step) R 결측값 처리 함수 출처 : 모두를 위한 R 데이터 분석 입문 한빛아카데미
데이터 전처리(Data Preprocessing) 초기에 확보한 데이터를 정제하고 가공해서 분석에 적합한 데이터를 확보하는 과정 초기 데이터에는 정상 범위를 넘어서는 값이나 오류 데이터가 포함되어 있는 경우도 있기 때문에 이를 처리하지 않으면 통계 결과가 왜곡될 수도 있다. 예) 한국과 외국 초등학생의 발육 상태를 비교 결측 값(missing value) 데이터를 수집하고 저장ㅎ하는 과정에서 저장할 값을 얻지 못하는 경우 발생 예) 통계조사 응답자가 질문에 대해 답변을 하지 않음 - 고의 누락, 실수 누락 결측 값의 처리 방법 결측 값을 제거하거나 제외하고, 데이터를 분석 결측 값을 추정하여 적당한 값으로 치환한 후, 데이터를 분석 결측 값의 대체 및 제거 더보기 # 결측값의 대체 및 제거 mv1
더보기 # 조건에 맞는 행과 열의 값 추출 IR.1 = 3.0) # Sepal.Length가 6.0이상, Width가 3.0이상인것의 데이터만 집어넣는다. . IR.2 IR.2[,c(2,4)] # 2,4 열의 값만 추출 출처 : 모두를 위한 R 데이터 분석 입문 한빛아카데미
벡터에 적용 가능한 함수 더보기 # 벡터에 적용 가능한 함수 d 5] # 5보다 큰 값 sum(logical > 5) # 5보다 큰 값의 개수를 출력 sum(logical[logical>5]) # 5보다 큰 값의 합계를 출력 logical == 5 # 5와 같은 logical_condition 4 & logical < 9 # 조건 지정 - 4보다 크고 9보다 작은 logical[logical_condition] 출처 : 모두를 위한 R 데이터 분석 입문 한빛아카데미
1단계 : 분석 대상 데이터셋 준비 mlbench 패키지 설치 더보기 install.packages("mlbench") # mlbench패키지 설치 library(mlbench) # mlench 로드 data("BostonHousing") # bostonhousing 로드 str(BostonHousing) # BostonHousing의 데이터 구조, 변수 개수, 변수 명, 관찰치 개수, 관찰치 미리보기 head(BostonHousing) # 상위 6개 관측치 미리보기 myds