728x90
1. Model Extension (모델 확장)
기본적인 모델들은 다양한 방식으로 확장이 가능
- 우리가 사용할 수 있는 모델을 풍부하게 만듦
- 일반적으로 모델의 복잡성을 줄이는(Overfitting의 가능성을 줄이는) 방향으로 확장
Feature Selection (입력 변수 선택)
- 활용가능한 입력 변수 중 일부를 골라서 사용
- 모든 모델에 적용 가능
- 복잡성을 줄이는 역할
Dimension Reduction (차원 축소)
- 입력 변수의 차원을 더 낮은 차원으로 압축하여 사용
- 연속형 입력 변수에 대하여 사용 가능
- 복잡성을 줄이는 역할
Regularization (규제화)
- 모델 파라미터의 범위를 제한
- 모델 파라미터가 존재하는 모수적 모델에 적용 가능
- 복잡성을 줄이는 역할
2. Dimension Reduction (차원 축소)
차원의 저주 (curse of dimensionality)
차원이 커질수록
- Data Point들 간의 거리가 크게 늘어남
- Data가 희소화(Sparse)됨
수백 ~ 수천개 이상의 Feature로 구성된 point들간 거리에 기반한 ML 알고리즘이 무력화됨
또한 Feature가 많을 경우 개별 Feature간의 상관관계가 높아 선형 회귀와 같은 모델에서는 다중 공선성 문제로 모델의 예측 성능이 저하될 가능성이 높음
차원 축소의 장점
- 차원의 저주를 회피 (고차원 모델에서는 어떠한 모델도 적합하지 않음)
- 학습 데이터 크기를 줄여서 학습 시간 절약
- 불필요한 Feature들을 제거하여 모델 성능 향상에 기여 (주로 이미지 관련 데이터)
- 새로운 입력 Feature를 추출 (Feature Extraction)
- 시각화: 다차원의 데이터를 3차원 이하의 차원 축소를 통해서 시각적으로 보다 쉽게 데이터 패턴 인지
어떻게 하면 원본 데이터의 정보를 최대한으로 유지한 채로 차원 축소를 진행할 것인가?
3. Feature Selection VS Feature Extraction
Dimension Reduction의 종류
- Feature Selection
- Feature Extraction
Feature Selection: 피처 선택
- 주어진 변수 중 일부를 선택
Feature Extraction: 피처 추출
- 원래 변수에서 새로운 변수를 도출
차원 축소의 의미: Latent
728x90