핸즈온 머신러닝 1장 연습문제

728x90

1. 머신러닝을 어떻게 정의할 수 있나요?

내 답 :

데이터로부터 학습하도록 컴퓨터를 프로그래밍하는 과학

정답

머신러닝은 데이터로부터 학습할 수 있는 시스템을 만드는 것
학습이란 어떤 작업에서 주어진 성능 지표가 나아지는 것을 의미한다.

2. 머신러닝이 도움을 줄 수 있는 문제 유형 네 가지를 말해보세요.

내 답 :

1. 챗봇
2. 스팸 필터
3. 주가 예측
4. 이용자에 따른 광고

정답

명확한 해결책이 없는 복잡한 문제, 수작업으로 만든 긴 규칙 리스트를 대체하는 경우, 
변화하는 환경에 적응하는 시스템을 만드는 경우, 사람에게 통찰을 제공해야 하는 경우(예를 들면 데이터 마이닝)
에 머신러닝이 도움을 줄 수 있다.

3. 레이블된 훈련 세트란 무엇인가요?

내 답 :

정답이 있는 데이터셋

정답

레이블된 훈련 세트는 각 샘플에 대해 원하는 정답(레이블)을 담고 있는 훈련 세트

4. 가장 널리 사용되는 지도 학습 작업 두 가지는 무엇인가요?

내 답 :

1. 서포트 벡터 머신(SVM, Support Vector Machine)
2. 신경망(Neural Network)
3. 선형 회귀(Linear Regression)

정답

가장 일반적인 두 가지 지도 학습 문제는 회귀와 분류

5. 보편적인 비지도 학습 작업 네 가지는 무엇인가요?

내 답 :

1. 군집(Clustering)
2. 시각화(Visualization)
3. 차원 축소(Dimensionality reduction)

정답

보편적인 비지도 학습 문제는 군집, 시각화, 차원 축소, 연관 규칙 학습

6. 사전 정보가 없는 여러 지형에서 로봇을 걸어가게 하려면 어떤 종류의 머신러닝 알고리즘을 사용할 수 있나요?

내 답 :

강화 학습(Reinforcement learning)

정답

알려지지 않은 지형을 탐험하는 로봇을 학습시키는 가장 좋은 방법은 강화 학습이다.
이는 전형적으로 강화 학습이 다루는 유형의 문제다.
지도 학습이나 비지도 학습으로 표현하는 것도 가능하지만, 일반적이지 않다.

7. 고객을 여러 그룹으로 분할하려면 어떤 알고리즘을 사용해야 하나요?

내 답 :

군집 알고리즘 혹은 계층 군집 알고리즘

정답

만약 그룹을 어떻게 정의할지 모른다면 고객끼리 군집으로 나누기 위해 군집 알고리즘(비지도 학습)을 사용할 수 있다.
그러나 어떤 그룹이 있어야 할지 안다면 분류 알고리즘(지도 학습)에 각 그룹에 대한 샘플을 주입한다.

8. 스팸 감지의 문제는 지도 학습과 비지도 학습 중 어떤 문제로 볼 수 있나요?

내 답 :

지도 학습 알고리즘 - 레이블(정답)이 있기 때문

정답

스팸 감지는 전형적인 지도 학습 문제다.
알고리즘에 많은 이메일과 이에 상응하는 레이블(스팸 혹은 스팸 아님)이 제공된다.

9. 온라인 학습 시스템이 무엇인가요?

내 답 :

데이터를 순차적으로 한 개씩 또는 미니배치 단위로 시스템을 훈련시킨다.

정답

온라인 학습 시스템은 배치 학습 시스템과 달리 점진적으로 학습할 수 있다.
이 방식은 변화하는 데이터와 자율 시스템에 빠르게 적응하고 매우 많은 양의 데이터를 훈련시킬 수 있다.

10. 외부 메모리 학습이 무엇인가요?

내 답 :

메인 메모리에 들어갈 수 없는 큰 데이터셋을 학습하는 시스템에서 
사용하고 일부 데이터셋을 읽어 들이며 훈련 단계를 반복한다.

정답

외부 메모리 알고리즘은 컴퓨터의 주메모리에 들어갈 수 없는 대용량의 데이터를 다룰 수 있다.
외부 메모리 학습 알고리즘은 데이터를 미니배치로 나누고 온라인 학습 기법을 사용해 학습한다.

11. 예측을 하기 위해 유사도 측정에 의존하는 학습 알고리즘은 무엇인가요?

내 답 :

사례 기반 학습(instance-based learning)

정답

사례 기반 학습 시스템은 훈련 데이터를 기억하는 학습이다.
새로운 샘플이 주어지면 유사도 측정을 사용해 학습된 샘플 중에서 가장 비슷한 것을 찾아 예측으로 사용한다.

12. 모델 파라미터와 학습 알고리즘의 하이퍼파라미터 사이에는 어떤 차이가 있나요?

내 답 :

정답

모델은 하나 이상의 파라미터를 사용해 새로운 샘프링 주어지면 무엇을 예측할지 결정한다.
학습 알고리즘은 모델이 새로운 샘플에 잘 일반화되도록 이런 파라미터들의 최적값을 찾는다.
하이퍼파라미터는 모델이 아니라 이런 학습 알고리즘 자체의 파라미터다.

13. 모델 기반 알고리즘이 찾는 것은 무엇인가요? 성공을 위해 이 알고리즘이 사용하는 가장 일반적인 전략은 무엇인가요? 예측은 어떻게 만드나요?

내 답 :

학습 알고리즘이 cost, loss function를 최소화하는 모델 파라미터를 찾는다.
선형 모델
예측은 새로운 데이터(학습에 사용하지 않은)에 모델을 적용해 예측을 함. - 추론

정답

모델 기반 학습 알고리즘은 새로운 샘플에 잘 일반화되기 위한 모델 파라미터의 최적값을 찾는다.
일반적으로 훈련 데이터에서 시스템의 예측이 얼마나 나쁜지 측정하고 모델에 규제가 있다면
모델 복잡도에 대한 페널티를 더한 비용 함수를 최소화함으로써 시스템을 훈련시킨다.

예측을 만들려면 학습 알고리즘이 찾은 파라미터를 사용하는 모델의 예측 함수에 새로운 샘플의 특성을 주입한다.

14. 머신러닝의 주요 도전 과제는 무엇인가요?

내 답 :

적은 데이터를 이용해 좋은 결과를 내기

정답

머신러닝의 주요 도전 과제는 부족한 데이터, 낮은 데이터 품질, 대표성 없는 데이터, 무의미한 특성,
훈련 데이터에 과소적합된 과도하게 간단한 모델, 훈련 데이터에 과대적합된 과도하게 복잡한 모델 등이다.

15. 모델이 훈련 데이터에서의 성능은 좋지만 새로운 샘플에서의 일반화 성능이 나쁘다면 어떤 문제가 있는 건가요? 가능한 해결책 세 가지는 무엇인가요?

내 답 :

과대적합 문제가 발생

해결
1. 모델에 규제(regularization)를 가해 모델을 단순화시킨다.
2. 훈련 데이터 늘리기
3. 훈련 데이터 이상치 제거

정답

모델이 훈련 데이터에서는 잘 작동하지만 새로운 샘플에서는 형편없다면 이 모델은 훈련 데이터에 과대적합되었을 가능성이 높다.

과대적합에 대한 해결책은 더 많은 데이터를 모으거나, 모델을 단순화하거나(간단한 알고리즘 선택, 
특성이나 파라미터 줄이기, 규제 추가),
훈련 데이터에 있는 잡음을 감소시키는 것이다.

16. 테스트 세트가 무엇이고 왜 사용해야 하나요?

내 답 :

훈련 세트로는 모델을 훈련, 테스트 세트로는 모델을 테스트
모델이 샘플에 얼마나 일반화될지 알 수 있게 해줌

정답

테스트 세트는 실전에 배치되기 전에 모델이 새로운 샘플에 대해 만들 일반화 오차를 추정하기 위해 사용한다.

17. 검증 세트의 목적은 무엇인가요?

내 답 :

여러 후보 모델 중에서 가장 좋은 모델을 찾기

정답

검증 세트는 모델을 비교하는 데 사용된다. 이를 사용해 가장 좋은 모델을 고르고 하이퍼파라미터를 튜닝한다.

18. 훈련-개발 세트가 무엇인가요? 언제 필요하고 어떻게 사용해야 하나요?

내 답 :

정답

훈련-개발 세트는 검증, 테스트 세트에 사용되는 데이터와 훈련 세트 사이에 데이터 불일치 위험이 있을 때 사용한다.

훈련 세트의 일부에서 모델을 훈련하고 훈련-개발 세트와 검증 세트에서 평가한다.
모델이 훈련 세트에서 잘 동작하지만 훈련-개발 세트에서 나쁜 성능을 낸다면 아마도 훈련 세트에 과대적합되었을 가능성이 높다.

훈련 세트와 훈련-개발 세트 양쪽에서 모두 잘 동작하지만 개발 세트에서 성능이 나쁘다면 
훈련 데이터와 검증 + 테스트 데이터 사이에 불일치가 있을 가능성이 높다.

검증 + 테스트 데이터에 더 가깝게 되도록 훈련 데이터를 개선해야 한다.

19. 테스트 세트를 사용해 하이퍼파라미터를 튜닝하면 어떤 문제가 생기나요?

내 답 :

과대적합 문제가 발생할것

정답

테스트 세트를 사용해 하이퍼파라미터를 튜닝하면 테스트 세트에 과대적합될 위험이 있고 일반화 오차를 낙관적으로 측정하게 된다.

출처 : https://m.hanbit.co.kr/store/books/book_view.html?p_code=B7033438574

핸즈온 머신러닝(2판)

이 책은 지능형 시스템을 구축하려면 반드시 알아야 할 머신러닝, 딥러닝 분야 핵심 개념과 이론을 이해하기 쉽게 설명한다. 사이킷런, 케라스, 텐서플로를 이용해 실전에서 바로 활용 가능한

m.hanbit.co.kr

728x90

저작자표시 비영리 변경금지

핸즈온 머신러닝 1장 연습문제

1. 머신러닝을 어떻게 정의할 수 있나요?

2. 머신러닝이 도움을 줄 수 있는 문제 유형 네 가지를 말해보세요.

3. 레이블된 훈련 세트란 무엇인가요?

4. 가장 널리 사용되는 지도 학습 작업 두 가지는 무엇인가요?

5. 보편적인 비지도 학습 작업 네 가지는 무엇인가요?

6. 사전 정보가 없는 여러 지형에서 로봇을 걸어가게 하려면 어떤 종류의 머신러닝 알고리즘을 사용할 수 있나요?

7. 고객을 여러 그룹으로 분할하려면 어떤 알고리즘을 사용해야 하나요?

8. 스팸 감지의 문제는 지도 학습과 비지도 학습 중 어떤 문제로 볼 수 있나요?

9. 온라인 학습 시스템이 무엇인가요?

10. 외부 메모리 학습이 무엇인가요?

11. 예측을 하기 위해 유사도 측정에 의존하는 학습 알고리즘은 무엇인가요?

12. 모델 파라미터와 학습 알고리즘의 하이퍼파라미터 사이에는 어떤 차이가 있나요?

13. 모델 기반 알고리즘이 찾는 것은 무엇인가요? 성공을 위해 이 알고리즘이 사용하는 가장 일반적인 전략은 무엇인가요? 예측은 어떻게 만드나요?

14. 머신러닝의 주요 도전 과제는 무엇인가요?

15. 모델이 훈련 데이터에서의 성능은 좋지만 새로운 샘플에서의 일반화 성능이 나쁘다면 어떤 문제가 있는 건가요? 가능한 해결책 세 가지는 무엇인가요?

16. 테스트 세트가 무엇이고 왜 사용해야 하나요?

17. 검증 세트의 목적은 무엇인가요?

18. 훈련-개발 세트가 무엇인가요? 언제 필요하고 어떻게 사용해야 하나요?

19. 테스트 세트를 사용해 하이퍼파라미터를 튜닝하면 어떤 문제가 생기나요?

공지사항

전체 카테고리

태그

전체 방문자

블로그 인기글

티스토리툴바

1. 머신러닝을 어떻게 정의할 수 있나요?

2. 머신러닝이 도움을 줄 수 있는 문제 유형 네 가지를 말해보세요.

3. 레이블된 훈련 세트란 무엇인가요?

4. 가장 널리 사용되는 지도 학습 작업 두 가지는 무엇인가요?

5. 보편적인 비지도 학습 작업 네 가지는 무엇인가요?

6. 사전 정보가 없는 여러 지형에서 로봇을 걸어가게 하려면 어떤 종류의 머신러닝 알고리즘을 사용할 수 있나요?

7. 고객을 여러 그룹으로 분할하려면 어떤 알고리즘을 사용해야 하나요?

8. 스팸 감지의 문제는 지도 학습과 비지도 학습 중 어떤 문제로 볼 수 있나요?

9. 온라인 학습 시스템이 무엇인가요?

10. 외부 메모리 학습이 무엇인가요?

11. 예측을 하기 위해 유사도 측정에 의존하는 학습 알고리즘은 무엇인가요?

12. 모델 파라미터와 학습 알고리즘의 하이퍼파라미터 사이에는 어떤 차이가 있나요?

13. 모델 기반 알고리즘이 찾는 것은 무엇인가요? 성공을 위해 이 알고리즘이 사용하는 가장 일반적인 전략은 무엇인가요? 예측은 어떻게 만드나요?

14. 머신러닝의 주요 도전 과제는 무엇인가요?

15. 모델이 훈련 데이터에서의 성능은 좋지만 새로운 샘플에서의 일반화 성능이 나쁘다면 어떤 문제가 있는 건가요? 가능한 해결책 세 가지는 무엇인가요?

16. 테스트 세트가 무엇이고 왜 사용해야 하나요?

17. 검증 세트의 목적은 무엇인가요?

18. 훈련-개발 세트가 무엇인가요? 언제 필요하고 어떻게 사용해야 하나요?

19. 테스트 세트를 사용해 하이퍼파라미터를 튜닝하면 어떤 문제가 생기나요?

공지사항

전체 카테고리

최근 글

최근댓글

태그

전체 방문자

블로그 인기글

티스토리툴바