728x90
반응형

데이터 분석 과정

1단계 : 문제 정의 및 계획

  • 문제가 명확해야 그 문제를 해결하기 위한 데이터가 어떤 것인지를 추정할 수 있고, 어떤 분석기법을 적용해야 할지도 계획할 수 있음

2단계 : 데이터 수집

  • 기존 시스템의 데이터베이스, 엑셀 파일, 종이 문서, 장비 내의 파일, 인터넷 등에서 필요한 자료를 수집

3단계 : 데이터 정재 및 전처리

  • 수집된 데이터는 바로 분석에 사용할 수 없는 경우가 대부분
  • 단위의 차이, 결측값, 오류 데이터 등의 보정 필요
  • 수집된 데이터를 분석이 가능한 형태로 정돈하는 과정을 데이터 정제 혹은 전처리 과정

4단계 : 데이터 탐색

  • 가벼운 데이터 분석
  • 전반적인 데이터의 내용을 파악하는 단계

5단계 : 데이터 분석

  • 데이터 탐색 단계에서 파악한 정보를 바탕으로 보다 심화된 분석을 수행하는 단계
  • 전통적인 통계분석을 포함하여 고급 분석 기법들이 사용됨
  • 머신러닝 기술도 적용됨

6단계 : 결과 보고

  • 데이터의 분석과 해석이 마무리되면 그 내용이 정리되고, 보고 되어야 한다.
  • 결과보고 작성단계에서 중요한 기술이 바로 데이터 시각화(visualization)
  • 데이터 시각화란 분석된 결과를 단순 숫자의 나열이 아니라 다양한 그래프나 그림을 통해서 결과를 쉽게 이해할 수 있도록 표현하는 것

 

R 프로그램이란?

  • R 프로그램은 데이터 분석과 시각화 등을 위해 개발된 오픈소스 프로그램
  • R 프로그램은 벨 연구소에서 개발된 S언어를 바탕으로 만들어졌다.
  • 뉴질랜드 오클랜드 대학의 로스 이하카와 로버트 젠틀맨에 의해 개발
  • 현재는 R 코어팀에 의해 지속적으로 유지

R 프로그램의 특징

  • R 프로그램은 통계, 머신 러닝, 금융, 시각화 등의 다양한 패키지를 갖추고 있으며 무료로 제공된다.
  • R 프로그램은 오픈 소스로 수많은 R 사용자들이 자유롭게 분석 기법을 추가하는 것이 가능하다.
  • Windows, MacOs, Linux 등 여러 운영체제에서 구동이 가능하다.
  • R 프로그램은 메모리 기반으로 동작
  • 객체지향 언어이며 장수형 언어

명령문 실행

  • 한 줄만 실행 : Ctrl + Enter 또는 RUN 아이콘
  • 여러 줄을 실행 : 블록 지정 후 Ctrl + Enter
  • 여러 명령어를 한 줄에 입력할 때는 세미콜론(;)으로 구분
  • 주석 문은 #을 이용(# 이후의 내용은 주석으로 간주하여 실행되지 않는다.
  • 바로 직전에 실행한 명령을 다시 실행 : Ctrl + Shift + P  

산술 연산

[그림1] 산술 연산
[그림2] 산술 연산 함수 

활용 연습 문제

[그림3] 연습 문제 출력

 

data() - 기본 데이터의 목록 표시

ChickWeight - 먹이에 따라 병아리 몸무게의 변화

women - 미국 30대 여성의 평균 키와 몸무게

** 대소문자 구분하여 입력해야 한다.

[그림4] str 함수 활용 출력
[그림5] head 활용 출력

 

plot 함수로 시각화

[그림6] plot 함수로 시각화

R 패키지

  • 특정 분석을 수행할 수 있는 함수, 객체, 데이터, 도움말 등의 집합
  • R에서는 CRAN이라는 서버에 패키지를 저장하고 사용자에게 제공
  • 패키지를 설치하려면 install.packages("패키 지명") 명령문을 제공
  • 패키지를 활성화하려면 library(패키지명) 명령문을 사용

library() - 설치된 라이브러리 확인

install.packages("ggplot2") - 패키지 설치

library(ggplot2) - 패키지 활성화

 

출처 : 모두를 위한 R 데이터 분석 입문 한빛아카데미

728x90
반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기