통계적 이해 - k 평균 군집(k-means clustering)
·
데이터과학/ADSP
k-평균 군집(k-means clustering) k-평균 군집의 절차(알고리즘) 군집의 수만큼(k개) 초기값을 지정 각 개체를 가까운 초기값에 할당하여 군집을 형성 각 군집의 평균을 재계산하여 초기값을 갱신 갱신된 값에 대해 위의 할당 과정을 반복하여 k개의 최종 군집을 형성 k-평균 군집에서 군집의 수(k)는 미리 정해주어야 함 k-개의 초기 중심값은 임의로 선택, 자료값 중 무작위 선택 초기 중심점들은 서로 멀리 떨어져 있는 것이 바람직 초기값에 따라 군집 결과가 크게 달라질 수 있음 k-평균 군집은 군집의 매 단계마다 군집 중심으로부터 오차 제곱합을 최소화하는 방향으로 군집을 형성해나 가는(부분 최적화 수행하는) “탐욕적 알고리즘”으로 간주될 수 있으며, 안정된 군집은 보장하나 전체적으로 최적이라..
Coursera - Python Data Structures
·
연구 & 자료/수료증
보호되어 있는 글입니다.
Python - str lib
·
프로그래밍 & 개발 환경/Python
# String Library str.capitalize() # abc -> Abc , ABC -> Abc 첫글자만 대문자로 str.center(width[, fillchar]) # str.endswith(suffix[,start[, end]]) # str.find(sub[, start[, end]]) # 문자열 안에 원하는 조건에 해당하는 글자 찾기. 찾아서 존재한다면 True, 없다면 False 혹은 해당하는 문자의 위치를 찾는데 사용하기도 한다. str.lstrip([chars]) # greet = ' Hello Bob ' 일 경우 lstrip()사용하면 'Hello Bob ' 왼쪽 문자열 공백 제거 str.replace(old, new[, count]) # old = bog, new = jane ..
Coursera - Programming for Everybody (Getting Started with Python)
·
연구 & 자료/수료증
보호되어 있는 글입니다.
빅데이터11일차 - 대상 데이터 표준화 후 군집화
·
데이터과학/R
대상 데이터 표준화 후 군집화 데이터와 데이터의 거리를 계산할 때 발생하는 문제의 예 [그림1] A와 B 거리의 계산 값 [그림2] 한계점 : 거리 계산에 있어서 키의 값은 많이 반영되는데(100), 시력은 거리 계산에 있어서 거의 영향을 미치지 못한다.(0.09) 즉, 자료의 범위가 큰 변수가 거리 계산에 있어서 더 많은 영향을 미칠수밖에 없다는 의미다. 분석자들은 모든 변수가 거리 계산에 동등한 영향을 갖도록 하기 위해서 모든 변수의 자료 범위를 0~1 사이로 표준화한 후에 거리 계산 변수 A의 값들을 0~1 사이로 표준화하는 공식 - (x-min(A)) / (max(A) - min(A)) R 대상 데이터 표준화 후 군집화 # 대상 데이터 표준화 후 군집화 std
빅데이터11일차 - k-평균 군집화
·
데이터과학/R
k - 평균 군집화의 과정 1단계 : 대상 데이터셋을 준비한다. 이때 산점도 상의 점 하나가 관측값 하나를 의미한다. 2단계 : 산점도 상에 임의의 점 2개(*와 +)를 만든다. 이 2개의 점은 나중에 군집이 완성되었을 때 각 군집의 중심점이 된다. 따라서 군집의 개수만큼 임의의 점을 생성한다. 3단계 : 산점도 상의 점들 하나하나와 임의의 점 2개와의 거리를 계산하여 두 점 중 가까운 쪽으로 군집을 형성한다. 그 결과 그래프의 왼쪽 위의 점들은(*)군집으로, 오른쪽 아래의 점들은(+)군집으로 묶였다. 4단계 : 두 개의 군집에서 중심점을 다시 계산(*와 +도 포함해 계산) (*)의 위치와 (+)의 위치를 새로 계산한 중심점의 위치로 이동한다. 5단계 : 4단계의 과정을 반복한다. 6단계 : (*)와 (..