728x90
1. Classification
- Supervised Learning: Labeled Data 사용
- Output이 discrete 한 경우
- Hyperplane을 기준으로 score 값을 계산하여 classification을 수행
- Linear Model
- Input Features & Model Parameter(learnable parameter)의 linear combination으로 구성
- Input Feature $x$ 기준 linear 할 필요가 없다
- Model Paramter $w$ 기준 linear 하면 Linear Model
- Input Feature: d-dimension vector
- Hyper plane: decision boundary
Positive sample과 negative sample들을 linear combination에 의해 구분을 하는 것이 목적
- Linear Model의 장점
- 단순
- 해석 가능성
- 다양한 환경에서 일반적으로 안정적인 성능
- Multiclass Classification
- 입력 신호 공간에서 hyper plane이 다수 존재 하여 classification을 수행
- d차원의 공간에 입력 feature vector가 존재
- target function f를 approximation하는 hypothesis h를 학습하는 것이 목적
2. Linear Classification Framework
- Predictor 결정 : $h(x) = sign(w^{T}x$
- Model Parameter를 fitting하기 위한 Loss function을 결정
- Zero-one loss
- Hinge loss
- Cross-entropy loss
- Optimization Algorithm 결정
- Sign Function
- 0보다 크면: +1
- 0보다 작으면: -1
- 0이면 : 0
Parameter W를 학습하는 것이 목적
- Zero-one Loss
- 내부의 logic을 판별하여 맞으면 1 틀리면 0을 출력하는 함수
- Function 표시방법 : $1\left [ logic \right ]$
- Hyper Plane : [w1,w2] vector와 내적했을 때 부호가 +/-가 되는 기준영역
3. Classification Model에서의 Error 판단
- Score $w^{T}\phi(x) = w \cdot \phi(x)$ : 결정 과정에서 model이 얼마나 confident한지 판별
- Hyperplane을 기준으로 score 값을 계산하여 classification을 수행
- Input Feature과 Model Parameter의 linear combination으로 구성
- + : model prediction이 positive sample을 의미
- - : model prediction이 negative sample을 의미
- Margin $(w \cdot \phi(x))y$: Score에 y값을 곱해서 구함, model이 얼마나 Correct한지 판별
- y = 1 (positive sample)
- y = -1 (negative sample)
- Margin이 음수가 나오면 model prediction이 실패했다는 것을 의미
- Zero-one loss
- $Loss_{0-1}(x,y,w) = 1\left [ (w \cdot \phi(x))y \right ]$
- Zero-one loss의 경우 partial derivative term을 구할 때 gradient = 0이 되므로 model 학습이 불가능해진다
- Hinge Loss
- $Loss_{hinge}(x,y,w) = max\left [1 - (w \cdot \phi(x))y,0 \right]$
- Gradient : Model Parameter로 미분
- Cross-entropy Loss
- 2개의 서로 다른 PMF p,q 사이의 dissimilarity를 측정
- ( 임의의 실수값이 있다면 sigmoid등의 함수로 [0,1]의 확률값으로 Mapping 해야함)
- p,q가 유사한 정도 : $p log\frac{1}{q} + (1-p) log\frac{1}{1-q} $
- p,q가 유사할수록 : Loss가 줄어듦
- p,q가 다를수록 : Loss가 올라감
- Classification Model 학습에 가장 많이 사용되는 loss function
- 함수의 원형 : 2개의 서로 다른 PMF 사이에 가까운 정도, 다른 정도를 측정하기 위한 KL divergence에 의해 표현
- Score 값은 실수인데, Cross-entropy 값은 확률 값(0~1)을 서로간에 비교를 해야된다
- 즉, Score 값을 확률 값으로 mapping 해야 한다 : Sigmoid Function 이용
- Logistic Model
- $w^{T}\phi(x)$의 값을 sigmoid 함수에 집어넣으면, score 실수 값을 0부터 1사이의 값으로 mapping 가능
- Linear Classifier가 GD를 사용하는 방법 : Weight Update
4. Multiclass classification: image recognition
- 입력 feature를 적절히 구분할 수 있는 hyper plane을 학습
- Binary classification -> multiclass classification 으로 확장
- One vs All: Multiclass classification 문제를 binary classification으로 풀 수 있게 한다
- Linear Classification의 장점
- 쉽게 구현할 수 있고, 쉽게 테스트 할 수 있음 : 가장 처음에 시도를 하기에 적합한 모델
- 해석 가능성 증가
728x90