통계적 이해 - 회귀분석의 가정
·
데이터과학/ADSP
회귀분석의 가정 ① 선형성 설명변수(x)와 반응변수(y)가 선형적 관계에 있음 - x(독립변수), y(종속변수) ② 독립성 오차(잔차)와 설명변수(x)의 값이 관련되어 있지 않음 ③ 등분산성 설명변수(x) 값에 관계없이 잔차들의 분산이 일정한 형태를 보임 ④ 비상관성 관측치들의 오차들끼리 상관이 없어야 한다. ⑤ 정상성(정규성) 오차의 분포가 정규분포를 이루어야 한다. 검정 방식들 : 히스토그램, Q-Q plot, Kolmogolov-Smirnov 검정, Shapiro-Wilk 검정 출처 : 2020 전면 개정판 ADsP 데이터 분석 준전문가 DATAEDU
통계적 이해 - 다중선형회귀분석
·
데이터과학/ADSP
다중선형 회귀분석 출처 : 2020 전면 개정판 ADsP 데이터 분석 준전문가 DATAEDU
통계적 이해 - 회귀분석,단순선형 회귀분석
·
데이터과학/ADSP
회귀분석 ① 회귀분석 하나나 그 이상의 독립변수들이 종속변수에 미치는 영향을 추론하는 통계 기법 단순선형회귀분석(독립변수가 하나)과 다중선형회귀분석(독립변수가 두 개 이상) ② 회귀분석의 변수 종속변수(반응변수, y) : 영향을 받는 변수 독립변수(설명변수, x, x1, x2) : 영향을 주는 변수 ③ 단순선형회귀분석 하나의 독립변수가 종속변수에 미치는 영향을 추정할 수 있는 통계기법 ① 회귀계수의 추정(최소제곱법, 최소자승법) 측정값을 기초로 하여 적당한 제곱합을 만들고 그것을 최소로 하는 값을 구하여 측정결과를 처리하는 방법으로 잔차제곱이 가장 작은 선을 구하는 것을 의미 ② 회귀분석의 검정 회귀계수 β1이 0이면 입력변수 x와 y 사이에 아무런 인과관계가 없음 회귀계수 β1 이 0이면 적합된 추정식..
통계적 이해 - 상관관계,상관분석
·
데이터과학/ADSP
상관관계 ① 상관관계 한 변수가 변화함에 따라 다른 변수가 어떻게 변화하는지와 같은 변화의 강도와 방향 ② 공분산(covariance) 두 확률변수 X, Y의 방향의 조합(선형성) Cov(x,y)=E[(X-μx )(Y- μy )] 공분산의 부호가 +이면 두 변수는 양의 방향성, 공분산의 부호가 –이면 두 변수는 음의 방향성을 가짐 X,Y가 독립이면 Cov(X,Y)=0 ③ 상관계수(Correlation coefficient) 두 변수의 상관관계를 알아봄 -1≤r≤1 상관분석 출처 : 2020 전면 개정판 ADsP 데이터 분석 준전문가 DATAEDU
통계적 이해 - 통계량에 의한 자료 분석, 그래프에 의한 자료 분석
·
데이터과학/ADSP
통계량에 의한 자료 분석 ③ 산포의 측도 표본 분산, 표본 표준편차, 데이터의 범위, 사분위수 범위, 변동 계수 ④ 분포의 형태에 대한 측도 왜도, 첨도 그래프를 이용한 자료 정리 ① 막대그래프 범주형 자료(이산형 또는 질적 자료의 개수) 명목 척도 ② 히스토그램 연속형 자료 혹은 비율 ③ 줄기 잎 그림 ④ 상자 그림 ⑤ 산점도 가장 기본이 되는 그래프, x축과 y축으로 구성된 좌표 위에 이차원 자료를 점으로 표현하여 두 변수 간의 관계를 나타내는 데 사용하는 그래프 ⑥ 산점도에서 확인해야 할 사항 두 변수 사이의 선형(직선) 관계 두 변수 사이의 함수 관계(직선/곡선) 이상 값의 존재 확인 몇 개의 집단으로 구분되는지 확인 출처 : 2020 전면 개정판 ADsP 데이터 분석 준전문가 DATAEDU
통계의 이해 - 기술 통계,통계량에 의한 자료 분석
·
데이터과학/ADSP
기술통계 자료를 요약하는 기초적 통계 데이터 분석에 앞서 데이터의 대략적인 통계적 수치를 계산해봄으로써 데이터에 대한 대략적 이해와 분석에 대한 통찰력을 얻기에 유리 데이터 마이닝에 앞서 데이터의 기술 통계를 확인해보는 것이 좋음 ① head : 데이터를 앞에서 기본 6줄 보여줌 ↔ tail ② summary : 데이터의 컬럼에 대한 전반적인 기초 통계량 6개 기초 통계량 제공 최소값(min), 최대값(max), 25%백분위수(Q1), 75%백분위수(Q3), 중앙값(median), 평균(mean) 통계량에 의한 자료 분석 ① 중심 위치 측도 : 표본 평균, 중앙값, 최빈값 ② 중심 위치의 대푯값을 선정하는 기준 명목 척도로 측정된 데이터 → 최빈값 사용 분포가 대칭이고 이상값이 존재하지 않으면 → 표본 ..