혼공머신 - CH2-1. 훈련 세트와 테스트 세트

728x90

지도 학습(Supervised Learning)

훈련하기 위한 데이터와 정답이 필요하다.
도미와 빙어 예에서는 생선의 길이와 무게를 알고리즘에 적용
데이터와 정답을 입력(input)과 타깃(target)이라고 한다.
입력과 타깃을 합쳐 훈련 데이터(training data)라고 부른다.
입력으로 사용된 길이와 무게를 특성(feature)라고 한다.
예) k-최근접 알고리즘

테스트 세트

평가에 사용하는 데이터

훈련 세트

훈련에 사용되는 데이터

생선 길이와 무게

# 생선의 길이와 무게 

fish_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 
                31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 
                35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0, 9.8, 
                10.5, 10.6, 11.0, 11.2, 11.3, 11.8, 11.8, 12.0, 12.2, 12.4, 13.0, 14.3, 15.0]
fish_weight = [242.0, 290.0, 340.0, 363.0, 430.0, 450.0, 500.0, 390.0, 450.0, 500.0, 475.0, 500.0, 
                500.0, 340.0, 600.0, 600.0, 700.0, 700.0, 610.0, 650.0, 575.0, 685.0, 620.0, 680.0, 
                700.0, 725.0, 720.0, 714.0, 850.0, 1000.0, 920.0, 955.0, 925.0, 975.0, 950.0, 6.7, 
                7.5, 7.0, 9.7, 9.8, 8.7, 10.0, 9.9, 9.8, 12.2, 13.4, 12.2, 19.7, 19.9]

생선 길이 무게 2차원 리스트로 변환

# 생선 길이 무게 2차원 리스트로 생성
fish_data = [[l,w] for l,w in zip(fish_length, fish_weight)]
fish_target = [1] * 35 + [0] * 14

사이킷런 KNeightborsClassifier 임포트

from sklearn.neighbors import KNeighborsClassifier
kn = KNeighborsClassifier()

데이터 슬라이싱 이용해 학습해보기

# 슬라이싱으로 생선 데이터 처음 35개와 나머지 14개 선택

train_input = fish_data[:35]
train_target = fish_target[:35]

test_input = fish_data[35:]
test_target = fish_target[35:]

kn = kn.fit(train_input, train_target)
kn.score(test_input, test_target)

빙어와 도미 데이터인데 빙어 데이터는 35개까지므로 평가 데이터에는 빙어 데이터가 없이 도미 데이터만 있기 때문에 0.0이 나온다.

샘플링 편향(sampling bias)

훈련 세트와 테스트 세트에 샘플이 골고루 섞여 있지 않으면 샘플링이 한쪽으로 치우쳤다는 의미로 샘플링 편향

파이선 리스트 넘파이 배열로 변환

# 파이썬 리스트 넘파이 배열로 변환
import numpy as np

input_arr = np.array(fish_data)
target_arr = np.array(fish_target)

print(input_arr.shape) # (샘플 수, 특성 수)출력

데이터 랜덤으로 섞기

# 데이터 랜덤으로 섞기
np.random.seed(42)# 일정한 결과를 얻으려면 초기에 랜덤 시드를 지정

index = np.arange(49)
np.random.shuffle(index)
print(index)

train_input = input_arr[index[:35]]
train_target = target_arr[index[:35]]

print(input_arr[13], train_input[0])

나머지 14개 테스트 세트 만들기

# 일치한다면 나머지 14개 테스트 세트로 만들기

test_input = input_arr[index[35:]]
test_target = target_arr[index[35:]]

도미와 빙어 데이터 산점도로 그려보기

import matplotlib.pyplot as plt

plt.scatter(train_input[:,0], train_input[:,1])
plt.scatter(test_input[:,0], test_input[:,1])
plt.xlabel('length')
plt.ylabel('weight')
plt.show()

# 파란색은 훈련 세트, 주황색은 테스트 세트

훈련 세트와 테스트 세트로 k-최근접 이웃 모델 학습

# 만든 훈련 세트와 테스트 세트로 k-최근접 이웃 모델 훈련

kn = kn.fit(train_input, train_target) # 입력, 정답

kn.score(test_input, test_target) # 테스트 입력, 테스트 정답


# 정확도 100%

predict()메서드로 예측

# predict 메서드로 테스트 세트의 예측 결과와 실제 타깃 확인

print(kn.predict(test_input))

print(test_target)

전체 소스 코드

# 전체 소스 코드


# 생선의 길이와 무게 

fish_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 
                31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 
                35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0, 9.8, 
                10.5, 10.6, 11.0, 11.2, 11.3, 11.8, 11.8, 12.0, 12.2, 12.4, 13.0, 14.3, 15.0]
fish_weight = [242.0, 290.0, 340.0, 363.0, 430.0, 450.0, 500.0, 390.0, 450.0, 500.0, 475.0, 500.0, 
                500.0, 340.0, 600.0, 600.0, 700.0, 700.0, 610.0, 650.0, 575.0, 685.0, 620.0, 680.0, 
                700.0, 725.0, 720.0, 714.0, 850.0, 1000.0, 920.0, 955.0, 925.0, 975.0, 950.0, 6.7, 
                7.5, 7.0, 9.7, 9.8, 8.7, 10.0, 9.9, 9.8, 12.2, 13.4, 12.2, 19.7, 19.9]

fish_data = [[l,w] for l,w in zip(fish_length, fish_weight)]
fish_target = [1] * 35 + [0] * 14

from sklearn.neighbors import KNeighborsClassifier
kn = KNeighborsClassifier() # 객체 생성

train_input = fish_data[:35]
train_target = fish_target[:35]

test_input = fish_data[35:]
test_target = fish_target[35:]

kn = kn.fit(train_input, train_target)
kn.score(test_input, test_target)


import numpy as np

input_arr = np.array(fish_data)
target_arr = np.array(fish_target)


np.random.seed(42) # 일정한 결과를 얻으려면 초기에 랜덤 시드를 지정

index = np.arange(49)
np.random.shuffle(index)


train_input = input_arr[index[:35]]
train_target = target_arr[index[:35]]

# 일치한다면 나머지 14개 테스트 세트로 만들기

test_input = input_arr[index[35:]]
test_target = target_arr[index[35:]]


import matplotlib.pyplot as plt

plt.scatter(train_input[:,0], train_input[:,1])
plt.scatter(test_input[:,0], test_input[:,1])
plt.xlabel('length')
plt.ylabel('weight')
plt.show()


# 만든 훈련 세트와 테스트 세트로 k-최근접 이웃 모델 훈련

kn = kn.fit(train_input, train_target) # 입력, 정답

kn.score(test_input, test_target) # 테스트 입력, 테스트 정답


# predict 메서드로 테스트 세트의 예측 결과와 실제 타깃 확인

print(kn.predict(test_input))

print(test_target)

728x90