빅데이터/R

·빅데이터/R
데이터 분리 하나의 데이터셋을 열의 값을 기준으로 여러 개의 데이터셋으로 분리할 때에는 split() 함수를 이용 # 데이터 분리 # sp 4.0 & Sepal.Length 7.6, select=c(Petal.Length,Petal.Width)) # 7.6이상, petal.Legnth,Petal.Width만 출력 출처 : 모두를 위한 R 데이터 분석 입문 한빛아카데미
·빅데이터/R
벡터의 정렬 정렬(sort)는 데이터를 주어진 기준에 따라 크기순으로 재배열하는 과정 # 벡터 정렬 num
·빅데이터/R
특이값의 개념 특이값(outlier)은 정상적이라고 생각되는 데이터의 분포 범위 밖에 위치하는 값들을 말하며, '이상치'라고도 부른다. 특이값들은 입력 오류에 의해 발생하기도 하고, 일반인의 몸무게 자료에 씨름선수의 몸무게가 합쳐진 경우처럼 실제로 특이한 값일 수도 있다. 제조 공정에서 불량인 제품을 선별하거나 은행거래 시스템에서 사기거래를 탐지할 때 사용하기도 한다. 데이터 분석에서는 특이값을 포함한 채 평균 등을 계산하면 전체 데이터의 양상을 파악하는 데 왜곡을 가져올 수 있으므로 분석할 때 특이값을 제외하는 경우가 많다. 특이값이 포함되어 여부 확인 논리적으로 있을 수 없는 값이 있는지 찾아보기 상식을 벗어난 값이 있는지 찾아보기 상자그림(boxplot)을 통해 찾아보기 *정해진 값의 범위를 벗어난..
·빅데이터/R
결측값 처리 방법 단순 대치법(Single imputation) 다중 대치법(Multiple imputation) m번의 대치를 통해 m개의 가상적 완전 자료를 만드는 방법 대치(Imputation step) -> 분석(analysis step) -> 결합(combination step) R 결측값 처리 함수 출처 : 모두를 위한 R 데이터 분석 입문 한빛아카데미
·빅데이터/R
데이터 전처리(Data Preprocessing) 초기에 확보한 데이터를 정제하고 가공해서 분석에 적합한 데이터를 확보하는 과정 초기 데이터에는 정상 범위를 넘어서는 값이나 오류 데이터가 포함되어 있는 경우도 있기 때문에 이를 처리하지 않으면 통계 결과가 왜곡될 수도 있다. 예) 한국과 외국 초등학생의 발육 상태를 비교 결측 값(missing value) 데이터를 수집하고 저장ㅎ하는 과정에서 저장할 값을 얻지 못하는 경우 발생 예) 통계조사 응답자가 질문에 대해 답변을 하지 않음 - 고의 누락, 실수 누락 결측 값의 처리 방법 결측 값을 제거하거나 제외하고, 데이터를 분석 결측 값을 추정하여 적당한 값으로 치환한 후, 데이터를 분석 결측 값의 대체 및 제거 더보기 # 결측값의 대체 및 제거 mv1
·빅데이터/R
더보기 # 조건에 맞는 행과 열의 값 추출 IR.1 = 3.0) # Sepal.Length가 6.0이상, Width가 3.0이상인것의 데이터만 집어넣는다. . IR.2 IR.2[,c(2,4)] # 2,4 열의 값만 추출 출처 : 모두를 위한 R 데이터 분석 입문 한빛아카데미
포장빵
'빅데이터/R' 카테고리의 글 목록 (4 Page)