빅데이터 5일차 - 상관분석과 상관계수

2020. 7. 20. 12:59·데이터과학/R
728x90

상관분석과 상관계수

  • 자동차의 중랴잉 커지면 연비는 감소하는 추세
  • 추세의 모양이 선(line) 모양이어서 중량과 연비는 '선형적 관계'에 있다고 표현
  • 선형적 관계라고 해도 강한 선형적 관계가 있고 약한 선형적 관계도 있음
  • 상관분석(correlation anaylsis) : 얼마나 선형성을 보이는지 수치상으로 나타낼 수 있는 방법
  • 피어슨 상관계수(Pearson's correlation coefficient) : 그림1
  • -1 ≤ r ≤ 1
  • r > 0 : 양의 상관관계(x가 증가하면 y도 증가)
  • r < 0 : 음의 상관관계(x가 증가하면 y는 감소)
  • r = 0 : 상관관계 없음
  • r이 1이나 -1에 가까울수록 x,y의 상관성이 높음

[그림1] 피어슨 상관계수 식

 

 

상관계수의 계산

  • 음주정도와 혈중 알콜농도의 상관성 조사
더보기
# 상관계수 계산
beers = c(5,2,9,9,3,7,3,5,3,5) 
bal <- c(0.1,0.03,0.19,0.12,0.04,0.0095,0.07, 	# 자료 입력
         0.06,0.02,0.05)
tbl <- data.frame(beers,bal) # 데이터 프레임 생성
tbl
plot(bal~beers, data=tbl) # 산점도
res <- lm(bal~beers, data=tbl) # 회귀신 도출
abline(res) # 회귀선 그리기
cor(beers, bal) # 상관계수 계산

[그림2] 상관계수 계산 예제 출력
[그림3] 상관계수 계산 예제 출력
[그림4] 피어슨, 스피어만 개념

 

728x90
저작자표시 비영리 변경금지 (새창열림)
'데이터과학/R' 카테고리의 다른 글
  • 빅데이터 6일차 - 벡터에 적용 가능한 함수, 논리연산자
  • 빅데이터 6일차 - 데이터 댐과 데이터 레이블링
  • 빅데이터 5일차 - 산점도, pch의 종류
  • 빅데이터 5일차 - 복습
포장빵
포장빵
IT공부 및 프로그래밍
  • 포장빵
    포장빵의 IT
    포장빵
  • 전체
    오늘
    어제
    • AI 학습 노트 (113)
      • 기초 수학 (4)
        • 선형대수 (0)
        • 확률통계 (4)
        • 미적분 (0)
        • 최적화 이론 (0)
      • AI & 딥러닝 (1)
        • 이론 (0)
        • 컴퓨터 비전 (0)
        • 자연어 처리 (0)
        • 생성AI (0)
        • 강화학습 (0)
      • 데이터과학 (70)
        • R (47)
        • ADSP (21)
      • 연구 & 자료 (15)
        • 논문 (6)
        • 수료증 (3)
      • 프로그래밍 & 개발 환경 (22)
        • Python (22)
        • 개발도구 (0)
        • 알고리즘 (0)
      • 면접 자료 (1)
  • 블로그 메뉴

    • 링크

    • 공지사항

    • 인기 글

    • 태그

      R 원 그래프 퍼센트
      베르누이분포
      주성분 분석(PCA)
      k-means clustering
      str lib
      Python 크롤링 기초
      다차원 척보법
      통계량에 의한 자료 분석
      시계열 모형
      yolov9
      시퀀스형
      확률 분포
      stylegan2
      k-평균 군집
      Coursera 1
      자료의 종류
      Coursera Python Data Structures
      R 도수분포표
      none타입
      R 원 그래프
      Python Regular Expression Quick Guide
      매핑형(딕셔너리)
      상관분석
      확률
      CV
      지수분포
      python 주요 데이터 타입
      논문
      단순선형 회귀분석
      yolov10
    • 최근 댓글

    • 최근 글

    • hELLO· Designed By정상우.v4.10.3
    포장빵
    빅데이터 5일차 - 상관분석과 상관계수
    상단으로

    티스토리툴바