상자그림 상자그림(box plot)은 상자 수염 그림(box and whisker plot)으로도 부르며, 사분위수를 시각화하여 그래프 형태로 나타낸 것이다. 하나의 그래프로 데이터의 분포 형태를 포함한 다양한 정보를 전달하기 때문에 단일변수 수치형 자료를 파악하는 데 자주 사용한다. 더보기 # 상자그림 dist
빅데이터/R
히스토그램 히스토그램(histogram)은 외관상 막대그래프와 비슷한 그래프로, 연속형 자료의 분포를 시각화할 때 사용 막대그래프를 그리려면 값이 종류별로 개수를 셀 수 있어야 하는데, 키와 몸무게 등의 자료는 값의 종류라는 개념이 없어서 종류별로 개수를 셀 수 없음 대신에 연속형 자료에서는 구간을 나누고 구간에 속하는 값들의 개수를 세는 방법을 사용 더보기 # 히스토그램 dist
산포 산포(distribution)란 주어진 자료에 있는 값들이 퍼져 있는 정도(흩어져 있는 정도)를 의미한다. 산포는 수학시간에 배운 분산(variance)과 표준편차(standard deviation)를 가지고 파악 분산 : 그림1 표준편차 : 그림2 자료의 분산과 표준편차가 작다는 의미는 자료의 관측값들이 평균값 부근에 모여 있다는 뜻 더보기 mydata
사분위수 사분위수(quatile)란 주어진 자료에 있는 값들을 크기순으로 나열했을 때 이것을 4등분하는 지점에 있는 값들을 의미한다. 자료에 있는 값들을 4등분하면 등분점이 3개 생기는데, 앞에서부터 '제1사분위수(Q1)',' 제2사분위수(Q2)', '제3사분위수(Q3)'라고 부르며, 제 2사분위수(Q2)는 중앙값과 동일하다. 전체 자료를 4개로 나누었기 때문에 4개의 구간에는 각각 25%의 자료가 존재한다. 더보기 mydata
숫자로 된 범주형 자료 숫자 형태의 범주형 자료도(명목 척도) 문자 형태의 범주형 자료와 마찬가지로 도수분포를 계산한 후 막대그래프와 원그래프를 그려서 자료의 내용을 확인 학생 15명이 선호하는 색깔을 조사한 자료 더보기 # 숫자로 된 범주형 자료 favorite.color