통계의 이해 - 기술 통계,통계량에 의한 자료 분석

2020. 7. 21. 07:13·데이터과학/ADSP
728x90

기술통계

  • 자료를 요약하는 기초적 통계
  • 데이터 분석에 앞서 데이터의 대략적인 통계적 수치를 계산해봄으로써 데이터에 대한 대략적 이해와 분석에 대한 통찰력을 얻기에 유리
  • 데이터 마이닝에 앞서 데이터의 기술 통계를 확인해보는 것이 좋음


① head : 데이터를 앞에서 기본 6줄 보여줌 ↔ tail


② summary : 데이터의 컬럼에 대한 전반적인 기초 통계량

  • 6개 기초 통계량 제공
  • 최소값(min), 최대값(max), 25%백분위수(Q1), 75%백분위수(Q3), 중앙값(median), 평균(mean)

통계량에 의한 자료 분석

 

① 중심 위치 측도 : 표본 평균, 중앙값, 최빈값


② 중심 위치의 대푯값을 선정하는 기준

  1. 명목 척도로 측정된 데이터 → 최빈값 사용
  2. 분포가 대칭이고 이상값이 존재하지 않으면 → 표본 평균 사용
  3. 비대칭이거나 이상값이 존재하면 → 중앙값 사용하고 표본 평균은 참고 값으로 비교
  4. 순위 척도로 측정된 데이터 → 중앙값 사용

[그림1] 산술평균과 중앙값 구하는 공식

출처 : 2020 전면 개정판 ADsP 데이터 분석 준전문가 DATAEDU

728x90
저작자표시 비영리 변경금지 (새창열림)
'데이터과학/ADSP' 카테고리의 다른 글
  • 통계적 이해 - 상관관계,상관분석
  • 통계적 이해 - 통계량에 의한 자료 분석, 그래프에 의한 자료 분석
  • 통계적 이해 - 모집단의 모수에 대한 검정 방법
  • 통계적 이해 - 가설 검정에서의 오류
포장빵
포장빵
IT공부 및 프로그래밍
  • 포장빵
    포장빵의 IT
    포장빵
  • 전체
    오늘
    어제
    • AI 학습 노트 (113)
      • 기초 수학 (4)
        • 선형대수 (0)
        • 확률통계 (4)
        • 미적분 (0)
        • 최적화 이론 (0)
      • AI & 딥러닝 (1)
        • 이론 (0)
        • 컴퓨터 비전 (0)
        • 자연어 처리 (0)
        • 생성AI (0)
        • 강화학습 (0)
      • 데이터과학 (70)
        • R (47)
        • ADSP (21)
      • 연구 & 자료 (15)
        • 논문 (6)
        • 수료증 (3)
      • 프로그래밍 & 개발 환경 (22)
        • Python (22)
        • 개발도구 (0)
        • 알고리즘 (0)
      • 면접 자료 (1)
  • 블로그 메뉴

    • 링크

    • 공지사항

    • 인기 글

    • 태그

      Python 크롤링 기초
      시계열 모형
      시퀀스형
      python 주요 데이터 타입
      베르누이분포
      다차원 척보법
      k-평균 군집
      stylegan2
      지수분포
      자료의 종류
      R 원 그래프
      Coursera Python Data Structures
      단순선형 회귀분석
      k-means clustering
      R 원 그래프 퍼센트
      통계량에 의한 자료 분석
      상관분석
      확률 분포
      CV
      none타입
      주성분 분석(PCA)
      yolov9
      매핑형(딕셔너리)
      yolov10
      Python Regular Expression Quick Guide
      str lib
      R 도수분포표
      논문
      Coursera 1
      확률
    • 최근 댓글

    • 최근 글

    • hELLO· Designed By정상우.v4.10.3
    포장빵
    통계의 이해 - 기술 통계,통계량에 의한 자료 분석
    상단으로

    티스토리툴바