빅데이터/R

·빅데이터/R
주행속도와 제동거리 사이의 회귀모델 구하기 단순선형 회귀식을 구하기 위해서는 이론적인 이해가 필요하지만, R에서 제공하는 lm()함수를 이용해 쉽게 회귀식을 구할 수 있다. 독립변수는 주행속도고 종속변수는 제동거리 # 주행속도와 제공거리 사이의 회귀모델 구하기 head(cars) plot(dist~speed, data = cars) # 산점도를 통해 선형 관계 확인. model
·빅데이터/R
회귀분석 관련 용어 증권회사에서는 미래의 주식 시세를 예측하기 위해 많은 연구 주식 시세는 기업의 매출액, 원유가격, 구겢정세, 정부정책 발표 등 매우 많은 요인들에 의해 영향 받는다. 독립변수(independent variable) : 주식시세에 영향을 미치는 요인들(기업의 매출액, 원유가격, 국제정세, 정부정책 발표) 종속변수(dependent variable) : 독립변수의 영향에 따라 값이 결정되는 주식시세 독립변수와 종속변수를 다른 용어로 각각 설명변수(explanatory variable)와 반응변수(response variable)라고도 한다. 예측모델(prediction model) 또는 예측모형 : 독립변수에 해당하는 자료와 종속변수에 해당하는 자료를 모아 관계를 분석하고 이를 예측에 사..
·빅데이터/R
데이터 병합 x와 u는 name을 공통 열로 갖고 있어서 name을 중심으로 두 파일을 병합한다. 두 개의 데이터프레임 x와 y를 name을 기준으로 병합하기 위해 merge()함수를 사용한다. 병합의 기준이 되는 열의 값이 일치되지 않는 경우에도 출력이 가능하다. all.x = T : 첫 번재 데이터셋의 행들은 일단 모두 출력하고, 이 행들과 대응되는 행이 두 번째 데이터셋에 있으면 병합해서 출력하고, 없으면 NA로 출력 all.y = T : 두 번째 데이터셋의 행들은 일단 모두 출력하고, 이 행들과 대응되는 행이 첫 번재 데이터셋에 있으면 병합해서 출력하고, 없으면 NA로 출력 # 데이터 병합 x
·빅데이터/R
데이터 집계 2차원 데이터는 데이터 그룹에 대해서 합계나 평균을 계산해야 하는 일이 많다. 이와 같은 작업을 집계(aggregation)이라고 한다. R에서는 aggregate() 함수를 통해서 사용이 가능하다. 예1) iris 데이터셋에서 각 변수의 품종별 평균 출력 aggregate()함수를 이용하여 iris 데이터셋에서 각 품종별로 꽃잎 꽃받침의 폭과 길이의 평균을 출력하기 위한 코드 # iris 데이터셋에서 각 변수의 품종별 평균 출력 agg
·빅데이터/R
set.seed()함수 sample()함수는 임의로 샘플을 추출하는 방식이다. 때문에 함수를 실행할 때마다 매번 그 결과가 다르다. 이런 경우 set.seed()함수를 sample()함수 실행 전에 먼저 실행한다. set.seed()함수의 매개변수 값이 같으면 sample()함수의 결과도 같다. # set.seed()함수 sample(1:20, size=5) # 비복원 추출 set.seed(100) sample(1:20,size=5) set.seed(100) sample(1:20,size=5) set.seed(100) sample(1:20,size=5) 데이터 조합 조합(combination) : 글자 그대로 주어진 데이터 값들 중에서 몇 개씩 짝을 지어 추출하는 작업 combn() 함수를 사용하며, 결..
·빅데이터/R
데이터 샘플링 샘플링(sampling) : 통계 용어, 주어진 값들이 있을 때 그중에서 임의의 개수의 값들을 추출하는 작업 샘플링이 필요한 경우의 예 : 데이터셋의 크기가 너무 커서 데이터 분석에 시간이 많이 걸리는 경우에, 일부의 데이터만 샘플링하여 대략의 결과를 미리 확인하고자 할 때 복원추출 : 한 번 뽑은 것을 다시 뽑을 수 있는 추출 ex) 주머니에서 꺼낸 구슬을 도로 넣어 원상복구한 다음에 다시 구슬을 뽑음 비복원 추출 : 한 번 뽑은 것을 다시 뽑을 수 없는 추출 ex) 한 번 주머니에서 꺼낸 구슬은 다시 넣지 않는다. 숫자를 임의로 추출 sample() 함수에서 size는 추출할 값의 개수를 지정하는 매개변수이고, replace = FALSE는 비복원 추출을 의미한다. 100개의 숫자 중 ..
포장빵
'빅데이터/R' 카테고리의 글 목록 (3 Page)