IT

·빅데이터/ADSP
통계량에 의한 자료 분석 ③ 산포의 측도 표본 분산, 표본 표준편차, 데이터의 범위, 사분위수 범위, 변동 계수 ④ 분포의 형태에 대한 측도 왜도, 첨도 그래프를 이용한 자료 정리 ① 막대그래프 범주형 자료(이산형 또는 질적 자료의 개수) 명목 척도 ② 히스토그램 연속형 자료 혹은 비율 ③ 줄기 잎 그림 ④ 상자 그림 ⑤ 산점도 가장 기본이 되는 그래프, x축과 y축으로 구성된 좌표 위에 이차원 자료를 점으로 표현하여 두 변수 간의 관계를 나타내는 데 사용하는 그래프 ⑥ 산점도에서 확인해야 할 사항 두 변수 사이의 선형(직선) 관계 두 변수 사이의 함수 관계(직선/곡선) 이상 값의 존재 확인 몇 개의 집단으로 구분되는지 확인 출처 : 2020 전면 개정판 ADsP 데이터 분석 준전문가 DATAEDU
·빅데이터/ADSP
기술통계 자료를 요약하는 기초적 통계 데이터 분석에 앞서 데이터의 대략적인 통계적 수치를 계산해봄으로써 데이터에 대한 대략적 이해와 분석에 대한 통찰력을 얻기에 유리 데이터 마이닝에 앞서 데이터의 기술 통계를 확인해보는 것이 좋음 ① head : 데이터를 앞에서 기본 6줄 보여줌 ↔ tail ② summary : 데이터의 컬럼에 대한 전반적인 기초 통계량 6개 기초 통계량 제공 최소값(min), 최대값(max), 25%백분위수(Q1), 75%백분위수(Q3), 중앙값(median), 평균(mean) 통계량에 의한 자료 분석 ① 중심 위치 측도 : 표본 평균, 중앙값, 최빈값 ② 중심 위치의 대푯값을 선정하는 기준 명목 척도로 측정된 데이터 → 최빈값 사용 분포가 대칭이고 이상값이 존재하지 않으면 → 표본 ..
·빅데이터/ADSP
모집단의 모수에 대한 검정 방법 ① 모수적 방법(parameteric method) 모집단의 분포에 대한 가정을 하고, 그 가정 하에서 검정 통계량과 검정 통계량이 분포를 유도해 검정을 실시하는 방법 ② 비모수적 방법(nonparameteric method) 자료가 추출된 모집단의 분포에 대해 아무 제약을 가하지 않고 검정을 실시하는 검정 방법 관측된 수치가 특정 분포를 따른다고 가정할 수 없는 경우에 사용 (예) 부호 검정(sign test), 윌콕슨의 순위합 검정(rank sum test), 윌콕슨의 부호 순위합 검정(signed rank test), 만-위트니의 U 검정, 런 검정(run test), 스피어만 순위상관계수 명목 척도, 순서 척도, 30개 미만일 경우 비모수적 방법 사용한다. 출처 :..
·빅데이터/ADSP
가설 검정에서의 오류(error) ① 제1종 오류(Type Ⅰ error: α) 귀무가설 H0이 옳은데도 H0 을 기각하게 되는 오류 ② 제2종 오류(Type Ⅱ error: β) 귀무가설 H0이 옳지 않은데도 H0 을 채택하게 되는 오류 두 가지 오류는 서로 상충관계 일반적으로 제1종 오류(α)의 크기를 0.01, 0.05, 0.1 등으로 고정시키고, 제2종 오류(β)가 최소가 되도록 기각역 설정 예) 판사의 판결에서 귀무가설은 피고는 무죄, 대립가설은 피고는 유죄 제1종 오류 : 실제로 무죄인 피고를 유죄로 판결 제2종 오류 : 실제로 유죄인 피고를 무죄로 판결 출처 : 2020 전면 개정판 ADsP 데이터 분석 준전문가 DATAEDU
·빅데이터/ADSP
통계적 추론1 – 점 추정과 구간 추정 모집단으로부터 표본을 추출하여 뽑은 표본을 가지고 모집단을 추론하는 것 ① 점 추정(point estimation) 모수가 특정한 값일 것이라고 추정하는 것 예) 40대 여성의 평균 키는 160cm이다. (점 추정) 사실상 추정이 얼마나 정확한가를 판단하기가 불가능 ② 구간 추정 점 추정의 정확성을 보완하는 방법 일정한 크기의 신뢰수준으로 모수가 특정한 구간에 있을 것이라고 선언하는 것, 예) 40대 여성의 평균 키는 155cm ~165cm 사이이다. 일반적인 신뢰수준 : 90%, 95%, 99% 확률 이용 95% 신뢰수준이란 100번 표본을 추출하여 신뢰구간을 구하는 경우 100개의 구간 중에 95개 구간이 모수 를 포함한다는 뜻 * 40대 모두를 조사할 수는 없..
·빅데이터/ADSP
확률변수(random variable) 특정값이 나타날 가능성이 확률적으로 주어지는 변수 정의역이 표본공간, 치역이 실수값(0
포장빵
'분류 전체보기' 카테고리의 글 목록 (10 Page)