[Python ML Guide] Section 2.3: Data Preprocessing (데이터 전처리)

StandardScalar(표준화): 평균이 0이고, 분산이 1인 정규 분포 형태로 변환
MinMaxScalar(정규화): 데이터 값을 0과 1사이의 범위 값으로 변환함 (음수 값이 있으면 -1에서 1값으로 변환)

2023. 8. 25. 09:45

OneHotEncoder	순위·순서가 없는 범주형 변수일 때 사용 (X가 명목 - 범주형 변수)
OrdinalEncoder	순위·순서가 있는 범주형 변수일 때 사용 (X가 순서 - 범주형 변수)
TargetEncoder	높은 카디널리티의 범주형 변수일 때 사용
pd.get_dummies	순위·순서가 없는 범주형 변수일 때 사용 (X가 명목 - 범주형 변수), OneHotEncoder 대체 가능

StandardScaler	각 feature의 평균을 0, 분산을 1로 변경
MinMaxScaler	최소/최대값이 각각 0, 1이 되도록 변경
MaxAbsScaler	최대 절대값이 1이 되도록 변경
RobustScaler	중앙값(median)과 IQR(interquartile range)을 사용하여 변경

티스토리툴바