1. Advanced Time Series Forecasting (2,3번 유형) Trends Seasonality Time Series with Trends Double Exponential Smoothing level, trend의 2개 각각의 exponential smoothing을 사용 $T_{t}$ trend : 올라가는 / 내려가는 추세를 나타낸다 $S_{t}$ level : 평균 주변의 값을 나타냄 $FIT_{t+1} = S_{t} + T_{t} $ level + trend 으로 forecast하는 방법 Causal Forecasting (Regression) 우리가 예측하고 싶은 변수(Dependent variables)는 다른 변수(Independent variables)들에 의해 다른..
1. 수요예측 기법 및 예측오차 Forecasting : 모든 decision의 중요 input이 된다 Forecasting이 필요한 이유 Forecasting을 기본으로 해서 결정되는 것들이 너무 많음 Forecasting을 잘못할 경우 : 수요를 잘못 예측함 너무 많은 사람들이 몰릴 줄 예측 못함 물량 배송을 크리스마스까지 하지 못함 Forecasting의 방법 Qualitative : 정성적인 방법 (사람 머릿속에 있는 정보를 가져와서 예측하겠다) + : 머릿속에 있는 전문성 (숫자나 코드로 표현하기가 쉽지 않음), 어려운 현업의 노하우를 반영가능 - : 한 두명의 의견에 의해 좌우될 수 있음 (과장) Quantitative : 정량적인 방법 ( 숫자에 의존하여 결정을 내리는 방법) + : 일관되게..
1. Problem Setting 차원축소 Data의 dimension이 커질수록 분석하기가 힘듦 High-dimesional data를 어떻게 하면 Low-dimensional vector로 차원을 줄일 수 없는가 PCA (Principal Component Analysis) 가 가장 전통적이고 대표적인 방법 PCA Algorithm $\chi$ : Total Data Set (D차원 data vector N개로 구성됨) $X_{i} = (x_{1,i}, x_{2,i}, ..... , x_{d,i})$ $X_{i}$ : 하나의 Data Point(vector) $D$ : dimension of the vector ($ D \times 1 vector $) Centering : 각 Data Point 마..
1. Optimization Machine Learning model을 학습한다고 했을 때, Optimization 문제로 구성됨 Model의 좋은 Parameter를 찾는 과정 특정 Optimization 문제의 solution이 되는 경우가 많음 Optimization의 종류 Unconstrained Optimization (제약식이 존재하지 X) Constrained Optimization (제약식이 존재 O) Convex Optimization Optimization Model의 구성요소 외부의 data인 parameter를 이용하여 구성한 Optimization model을 통해 모든 Constraints를 만족하는 decision variable들 중에 objective function을 최대..
Matrix Decomposition (행렬분해) 1. Determinant det A : 정사각행렬 A를 하나의 수로서 대응시키는 특별한 함수 only 정사각행렬 vector는 정의 X M_ij : Minor(소행렬식) = i행, j열을 모두 지운 후 남은 element끼리 determinant처리 C_ij : Cofactor (여인수) = M_ij * (-1)^(i+j) : (0,0)에서 시작해서 1칸씩 건너갈 때마다 (-1)을 곱한다고 생각 기본행 연산 (A->B) 두 행을 swap : -|A| = |B| 한 행을 상수배 : c|A| = |B| (행렬식 전체가 c로 묶임) 한 행을 상수배하고 다른 행에 + : |A| = |B| (same) Determinant 구하기 기준을 잡은 행 or 열에 '0..
1. Becoming a world-class data scientist 데이터에 대한 호기심 (데이터에 대한 관심, 이종 데이터를 결합하는 능력) 물가 예측 프로그램 : 미래의 식량문제 가짜 뉴스의 탐지 기능 가짜는 점조직처럼 산발적으로 퍼지고, 진짜는 서로 연결된 상태로 퍼짐 위성영상 처리 기술 고해상도로 주간 영상을 찍고 그 영상을 분석하는 CNN, Transfer Learning 알고리즘으로 분석 가볼 수 없는 지역에 대한 분석이 가능함 산업과 사회의 모든 영역에서 디지털 전환이 이루어지면서 데이터 사이언스는 모든 분야를 혁신적으로 바꿔줄 수 있음 이종 빅데이터의 결합과 새로운 인공지능 기반 계산과학 방법의 적용으로 난제 해결, 정책 결정, 신규 사업의 창출 등이 기대 데이터과학은 다른 산업과는 ..
AI가 우리 사회에 도입됨에 따라 어떻게 법 제도가 바뀌고 & 활용되고 있는지에 대해 전반적으로 이해필요 1. AI and Creativity 주어진 문제에 대해 답을 잘 찾음 : 대체할 수 있는 직업 또한 존재 AI가 인간의 고유 영역인 창작을 할 수 있을까? 2. AI Art in Action 3. Copyright Issues 학습에 사용된 데이터를 제공한 사람에게도 혜택이 돌아가기 힘듦 창작자인 AI는 법적 권리를 제공할 수 있는 법적 제도가 없다 현존하는 예술가의 스타일을 따라한 예술 작품을 만들 경우 상업적 피해를 준다 창작된 작품이 인간의 윤리적 규범을 따르지 않을 수 있다 4. AI contributed harm AI의 개발 과정에서 이러한 논의가 선행되지 않은 채 이미 사용화되는 서비스들..
1. 데이터를 잘 해석하고 있는가 상관관계(corrleation)와 인과관계(cause & effect)는 다르다 2. 데이터 전처리와 분석방법은 적절한가 에러바(error bar)가 없는 도표 X 적절한 통계 테스트 사용 아웃라이어 제거 : 전처리 데이터 표준화, 정규화 EDA (explanatory data analysis) 충분한 시간 투자 3. 학습에 쓰는 데이터가 충분한가 Train Data : 학습 데이터 Test Data : 테스트 데이터 Overfitting : Train data에 대해서 과도하게 학습 & Test data에 대해서는 잘 동작 X Overfitting은 학습 데이터(Training Set)에 대해 과하게 학습된 상황입니다. 따라서 학습 데이터 이외의 데이터(Test Set..
손으로 쓴 숫자 0~9 사이의 흑백 이미지로 구성된 클래식 MINST 데이터셋을 사용함 경로 설정을 담당하는 pathlib 라이브러리를 사용 requests를 이용하여 데이터셋를 다운로드 In [2]: from pathlib import Path import requests DATA_PATH = Path("data") PATH = DATA_PATH / "minst" PATH.mkdir(parents=True, exist_ok=True) URL = "https://github.com/pytorch/tutorials/raw/main/_static/" FILENAME = "mnist.pkl.gz" if not (PATH / FILENAME).exists(): conten..