1. Regression Intro
회귀 소개
- 회귀는 현대 통계학을 이루는 큰 축
- 회귀 분석은 유전적 특성을 연구하던 영국의 통계학자 갈톤(Galton)이 수행한 연구에서 유래했다는 것이 일반론
"부모의 키가 크더라도 자식의 키가 대를 이어 무한정 커지지 않으며, 부모의 키가 작더라도 대를 이어 자식의 키가 무한정 작아지지 않는다"
회귀 분석은 이처럼 데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법
회귀 개요
회귀는 여러 개의 독립 변수와 한 개의 종속 변수 간의 상관관계를 모델링 하는 기법을 통칭
- X: 독립변수(입력변수, 설명변수) = 각 독립변수들끼리의 상관관계는 적다/독립적이다 (Feature)
- 다른 변수에 영향을 받지 않고 독립적으로 변화하는 수
- Y: 종속변수(출력변수, 반응변수) = 독립변수에 영향을 받는 변수 (결정값)
- 독립변수의 영향을 받아 값이 변화하는 수로 분석의 대상이 되는 변수를 의미
- W: 회귀계수 = 독립변수의 값에 영향을 미치는 계수
- $\varepsilon$: 잔차 = 실제값과 예측값의 차이에 따른 오류 값
$Y = w_{0} + w_{1}X + \varepsilon $
Machine Learning 회귀 예측의 핵심은 주어진 피처와 결정 값 데이터 기반에서 학습을 통해 최적의 회귀 계수를 찾아내기
2. Regression type (회귀 유형)
- 회귀 계수의 결합 형태 (선형 / 비선형)
- 독립변수의 선형 / 비선형 여부와는 무관
- 선형 회귀(linear combination) / 비선형 회귀(gradient descent +Backpropagation)
- 독립변수의 개수: 단순 회귀(1개, simple LR) / 다중 회귀(여러 개, multiple LR)
- 종속변수의 개수
단순 선형 회귀 : $y = W_{0} + W_{1}X_{1}$
다중 선형 회귀: $y = W_{0} + W_{1}X_{1} + W_{2}X_{2} + ......$
다항 회귀 (선형 회귀): $y = W_{0} + W_{1}X^{1} + W_{2}X^{2} + ...... + W_{d}X^{k}$
회귀에서 선형 / 비선형 회귀를 나누는 기준은 회귀 계수들이 결합한 형태가 선형 / 비선형인지에 따른 것이지 독립변수의 선형 / 비선형 여부와는 무관함
회귀에서 가장 중요한 것은 '회귀 계수'이다!
정형 데이터일 때, 선형 회귀가 비선형 회귀보다 예측 성능이 더 높다
3. Classification & Regression
분류와 회귀 (Classification & Regression)
- Classification: 결과값 = 범주형 Data (명목, 순서)
- Regression: 결과값 = 숫치형 Data (연속, 이산)
4. Linear Regression type
선형 회귀의 종류
- 일반 선형 회귀: 예측값과 실제 값의 RSS(Residual Sum of Squares)를 최소화할 수 있도록 회귀 계수를 최적화하며, 규제(Regularization, RSS를 무뎌지게 하는 방법)를 적용하지 않은 모델
- 릿지(Ridge): 릿지 회귀는 선형 회귀에 L2 규제(큰 계수 조정)를 추가한 회귀 모델
- 라쏘(Lasso): 라쏘 회귀는 선형 회귀에 L1 규제(작은 계수 제거)를 적용한 방식
- 엘라스틱넷(ElasticNet): L2, L1 규제를 함께 결합한 모델
- 로지스틱 회귀(Logistic Regression): 회귀라는 이름이 붙어있지만, 사실은 분류에 사용되는 선형 모델 (0,1의 이산값을 예측)
- 일반 선형 회귀 / 릿지
- 라쏘 / 엘라스틱넷
5. 단순 선형 회귀(Simple Regression)
독립변수도 하나, 종속 변수도 하나인 선형 회귀
주택 가격이 주택의 크기로만 결정되는 단순 선형 회귀로 가정하면 다음과 같이 주택 가격은 주택 크기에 대하여 선형(직선 형태)의 관계로 표현할 수 있음
최적의 회귀 모델을 만든다는 것은 바로 전체 데이터의 잔차(오류 값)합이 최소가 되는 모델을 만든다는 의미
동시에 오류 값 합이 최소가 될 수 있는 최적의 회귀 계수를 찾는다는 의미도 포함