혼자 아닌 혼자가 되고 싶은 나의 인생

머신러닝과 알고리즘의 이해 : 의사결정트리/서포트벡터머신 본문

컴퓨터 사이언스/Machine Learning 기초

머신러닝과 알고리즘의 이해 : 의사결정트리/서포트벡터머신

KanzesT 2022. 1. 31. 11:53

의사결정트리(Decision Tree)

  - 데이터들 상에 존재하는 패턴을 예측 가능한 규칙들의 조합의 나무형태로 나타내어주는 모형

  - 운동하는 가족사진 찾기의 예

  ex) 분류 기준 설정 : 1. 사람 등장 여부 → 2. 가족인가 → 3. 운동중인가?

효율적인 의사결정트리 구성

  - 가능한 적은 깊이로 예측 정확도를 높이도록 구성

  - 분기 기준(결정노드)이 최대한 많은 데이터 세트가 필터되도록 구성

  - 많은 분기기준(많은규칙)이 있다는 것은 결정하는 방식이 매우 복잡하고 과적합 및 성능저하의 가능성 존재.

 

서포트 벡터 머신(Support vector machine)

<마진이 가장 큰 결정 경계선을 그어 분류하는 알고리즘>

  - 서로 다른 분류 값을 결정하는 경계선(결정 경계선 : Optimal Hyperplane)을 결정하는 알고리즘

  - 벡터의 의미 : 2차원 공간 상에 나타난 데이터 포인트

  - 서포트 벡터 : 결정경계선과 가장 가까이 맞닿은 데이터 포인트

  - 마진(margin) : 서포트벡터와 결정 경계 사이의 거리

SVM(서포트 벡터 머신)의 목표 : 마진을 최대로 하는 결정 경계를 찾는 것 (↔ 선형회귀와 구분)

  - 마진이 클수록 알지 모하는 새로운 데이터에 대해 안정적으로 분류할 가능성이 높음

  - 마진을 최대로 하는 결정 경계는 학습 단계를 통하여 발견

 

벡터공간은 n차원(n = number of feature)의 데이터 벡터공간이므로 초평면은 n-1 차원

  ex) 3차원(R^3)일 경우 결정 경계는 2차원

 

 

파라미터 최적화

1. 비용(Cost) : 마진조절 변수

- 비용이 작을 수록 마진 너비가 넓어짐

- 얼마나 많은 학습데이터가 다른 클래스에 놓이는 것을 허용하는지 결정 : 비용이 작을 수록 많이 허용, 클 수로 적게 허용. 즉 비용이 커질 수록 곡선이되어 세분하게 나눔

- 비용이 클수록 학습 데이터에 대한 오류는 적어지나 과적합(overfitting) 문제 발생, 성능이 낮아짐

 

 

2. 감마(Gamma)

- 학습 데이터 포인트들이 결정 경계에 영향을 끼치는 정도를 조절해주는 변수

- 감마 값이 크면 많은 데이터포인트들이 가까이 있는 것으로 고려되어 결정 경계가 작아지고 구부러짐

- 즉, 감마 값이 작으면 데이터 포인트들이 멀리 분포되어 있는 것으로 고려되어 결정 경계가 완만해지고, 너무 크면 데이터가 영향을 미치는 범위가 현저히 줄어 결정 경계가 제대로 만들어지지 않을 수 있음.

 

구글 티처블 머신(Teachable Machine)

- https://teachablemachine.withgoogle.com/

 

Teachable Machine

Train a computer to recognize your own images, sounds, & poses. A fast, easy way to create machine learning models for your sites, apps, and more – no expertise or coding required.

teachablemachine.withgoogle.com

- 이미지, 사운드, 자세를 인식하여 검사

- 웹기반으로 기계학습 모델을 생성

- 사용법

1. 이미지 모으기 (학습하고자 하는 이미지 수집)

2. 이미지 데이터 업로드(Upload)

3. 학습(Training)

4. 내보대기 : 모델 파일을 다운로드하거나 온라인으로 요청하여 데이터 수신

 

 

Comments