빅데이터 5일차 - 상관분석과 상관계수

2020. 7. 20. 12:59·데이터과학/R
728x90

상관분석과 상관계수

  • 자동차의 중랴잉 커지면 연비는 감소하는 추세
  • 추세의 모양이 선(line) 모양이어서 중량과 연비는 '선형적 관계'에 있다고 표현
  • 선형적 관계라고 해도 강한 선형적 관계가 있고 약한 선형적 관계도 있음
  • 상관분석(correlation anaylsis) : 얼마나 선형성을 보이는지 수치상으로 나타낼 수 있는 방법
  • 피어슨 상관계수(Pearson's correlation coefficient) : 그림1
  • -1 ≤ r ≤ 1
  • r > 0 : 양의 상관관계(x가 증가하면 y도 증가)
  • r < 0 : 음의 상관관계(x가 증가하면 y는 감소)
  • r = 0 : 상관관계 없음
  • r이 1이나 -1에 가까울수록 x,y의 상관성이 높음

[그림1] 피어슨 상관계수 식

 

 

상관계수의 계산

  • 음주정도와 혈중 알콜농도의 상관성 조사
더보기
# 상관계수 계산
beers = c(5,2,9,9,3,7,3,5,3,5) 
bal <- c(0.1,0.03,0.19,0.12,0.04,0.0095,0.07, 	# 자료 입력
         0.06,0.02,0.05)
tbl <- data.frame(beers,bal) # 데이터 프레임 생성
tbl
plot(bal~beers, data=tbl) # 산점도
res <- lm(bal~beers, data=tbl) # 회귀신 도출
abline(res) # 회귀선 그리기
cor(beers, bal) # 상관계수 계산

[그림2] 상관계수 계산 예제 출력
[그림3] 상관계수 계산 예제 출력
[그림4] 피어슨, 스피어만 개념

 

728x90
저작자표시 비영리 변경금지 (새창열림)
'데이터과학/R' 카테고리의 다른 글
  • 빅데이터 6일차 - 벡터에 적용 가능한 함수, 논리연산자
  • 빅데이터 6일차 - 데이터 댐과 데이터 레이블링
  • 빅데이터 5일차 - 산점도, pch의 종류
  • 빅데이터 5일차 - 복습
포장빵
포장빵
IT공부 및 프로그래밍
  • 포장빵
    포장빵의 IT
    포장빵
  • 전체
    오늘
    어제
    • AI 학습 노트 (113)
      • 기초 수학 (4)
        • 선형대수 (0)
        • 확률통계 (4)
        • 미적분 (0)
        • 최적화 이론 (0)
      • AI & 딥러닝 (1)
        • 이론 (0)
        • 컴퓨터 비전 (0)
        • 자연어 처리 (0)
        • 생성AI (0)
        • 강화학습 (0)
      • 데이터과학 (70)
        • R (47)
        • ADSP (21)
      • 연구 & 자료 (15)
        • 논문 (6)
        • 수료증 (3)
      • 프로그래밍 & 개발 환경 (22)
        • Python (22)
        • 개발도구 (0)
        • 알고리즘 (0)
      • 면접 자료 (1)
  • 블로그 메뉴

    • 링크

    • 공지사항

    • 인기 글

    • 태그

      단순선형 회귀분석
      상관분석
      R 원 그래프 퍼센트
      자료의 종류
      CV
      python 주요 데이터 타입
      통계량에 의한 자료 분석
      none타입
      확률
      매핑형(딕셔너리)
      yolov10
      Coursera Python Data Structures
      Python Regular Expression Quick Guide
      yolov9
      다차원 척보법
      Python 크롤링 기초
      R 원 그래프
      시계열 모형
      str lib
      R 도수분포표
      stylegan2
      확률 분포
      Coursera 1
      k-means clustering
      시퀀스형
      논문
      지수분포
      베르누이분포
      k-평균 군집
      주성분 분석(PCA)
    • 최근 댓글

    • 최근 글

    • hELLO· Designed By정상우.v4.10.3
    포장빵
    빅데이터 5일차 - 상관분석과 상관계수
    상단으로

    티스토리툴바