728x90
반응형

기술통계

  • 자료를 요약하는 기초적 통계
  • 데이터 분석에 앞서 데이터의 대략적인 통계적 수치를 계산해봄으로써 데이터에 대한 대략적 이해와 분석에 대한 통찰력을 얻기에 유리
  • 데이터 마이닝에 앞서 데이터의 기술 통계를 확인해보는 것이 좋음


① head : 데이터를 앞에서 기본 6줄 보여줌 ↔ tail


② summary : 데이터의 컬럼에 대한 전반적인 기초 통계량

  • 6개 기초 통계량 제공
  • 최소값(min), 최대값(max), 25%백분위수(Q1), 75%백분위수(Q3), 중앙값(median), 평균(mean)

통계량에 의한 자료 분석

 

① 중심 위치 측도 : 표본 평균, 중앙값, 최빈값


② 중심 위치의 대푯값을 선정하는 기준

  1. 명목 척도로 측정된 데이터 → 최빈값 사용
  2. 분포가 대칭이고 이상값이 존재하지 않으면 → 표본 평균 사용
  3. 비대칭이거나 이상값이 존재하면 → 중앙값 사용하고 표본 평균은 참고 값으로 비교
  4. 순위 척도로 측정된 데이터 → 중앙값 사용

[그림1] 산술평균과 중앙값 구하는 공식

출처 : 2020 전면 개정판 ADsP 데이터 분석 준전문가 DATAEDU

728x90
반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기