빅데이터7일차 - 데이터 병합
·
데이터과학/R
데이터 병합 x와 u는 name을 공통 열로 갖고 있어서 name을 중심으로 두 파일을 병합한다. 두 개의 데이터프레임 x와 y를 name을 기준으로 병합하기 위해 merge()함수를 사용한다. 병합의 기준이 되는 열의 값이 일치되지 않는 경우에도 출력이 가능하다. all.x = T : 첫 번재 데이터셋의 행들은 일단 모두 출력하고, 이 행들과 대응되는 행이 두 번째 데이터셋에 있으면 병합해서 출력하고, 없으면 NA로 출력 all.y = T : 두 번째 데이터셋의 행들은 일단 모두 출력하고, 이 행들과 대응되는 행이 첫 번재 데이터셋에 있으면 병합해서 출력하고, 없으면 NA로 출력 # 데이터 병합 x
빅데이터 7일차 - 데이터 집계
·
데이터과학/R
데이터 집계 2차원 데이터는 데이터 그룹에 대해서 합계나 평균을 계산해야 하는 일이 많다. 이와 같은 작업을 집계(aggregation)이라고 한다. R에서는 aggregate() 함수를 통해서 사용이 가능하다. 예1) iris 데이터셋에서 각 변수의 품종별 평균 출력 aggregate()함수를 이용하여 iris 데이터셋에서 각 품종별로 꽃잎 꽃받침의 폭과 길이의 평균을 출력하기 위한 코드 # iris 데이터셋에서 각 변수의 품종별 평균 출력 agg
빅데이터 7일차 - set.seed(), 데이터 조합
·
데이터과학/R
set.seed()함수 sample()함수는 임의로 샘플을 추출하는 방식이다. 때문에 함수를 실행할 때마다 매번 그 결과가 다르다. 이런 경우 set.seed()함수를 sample()함수 실행 전에 먼저 실행한다. set.seed()함수의 매개변수 값이 같으면 sample()함수의 결과도 같다. # set.seed()함수 sample(1:20, size=5) # 비복원 추출 set.seed(100) sample(1:20,size=5) set.seed(100) sample(1:20,size=5) set.seed(100) sample(1:20,size=5) 데이터 조합 조합(combination) : 글자 그대로 주어진 데이터 값들 중에서 몇 개씩 짝을 지어 추출하는 작업 combn() 함수를 사용하며, 결..
빅데이터7일차 - 데이터 샘플링,숫자,행 임의로 추출하기
·
데이터과학/R
데이터 샘플링 샘플링(sampling) : 통계 용어, 주어진 값들이 있을 때 그중에서 임의의 개수의 값들을 추출하는 작업 샘플링이 필요한 경우의 예 : 데이터셋의 크기가 너무 커서 데이터 분석에 시간이 많이 걸리는 경우에, 일부의 데이터만 샘플링하여 대략의 결과를 미리 확인하고자 할 때 복원추출 : 한 번 뽑은 것을 다시 뽑을 수 있는 추출 ex) 주머니에서 꺼낸 구슬을 도로 넣어 원상복구한 다음에 다시 구슬을 뽑음 비복원 추출 : 한 번 뽑은 것을 다시 뽑을 수 없는 추출 ex) 한 번 주머니에서 꺼낸 구슬은 다시 넣지 않는다. 숫자를 임의로 추출 sample() 함수에서 size는 추출할 값의 개수를 지정하는 매개변수이고, replace = FALSE는 비복원 추출을 의미한다. 100개의 숫자 중 ..
빅데이터 7일차 - 데이터 분리, 데이터 선택
·
데이터과학/R
데이터 분리 하나의 데이터셋을 열의 값을 기준으로 여러 개의 데이터셋으로 분리할 때에는 split() 함수를 이용 # 데이터 분리 # sp 4.0 & Sepal.Length 7.6, select=c(Petal.Length,Petal.Width)) # 7.6이상, petal.Legnth,Petal.Width만 출력 출처 : 모두를 위한 R 데이터 분석 입문 한빛아카데미
빅데이터 7일차 - 벡터,매트릭스,데이터프레임 정렬
·
데이터과학/R
벡터의 정렬 정렬(sort)는 데이터를 주어진 기준에 따라 크기순으로 재배열하는 과정 # 벡터 정렬 num