0. Intro 대규모 Data를 별도의 label없이 입력의 일부를 예측대상으로 삼아서 학습하는 Self-supervised Learning 이를 통해 대규모 data로 사전 학습된 자연어 처리 용도로 사용될 수 있는 BERT GPT2,3에서 사용되는 masked language model 및 다음 단어를 예측하는 language modeling을 통해서 다양한 자연어 처리 task의 성능을 높여줌 실제 언어 생성 task로서 GPT2,3을 사용해서 실제 창작과정에 도움을 줄 수 있는 사례 1. Self-supervised Learning (자가 지도학습) Unlabled data(given input, No desired output = No Label) 를 기반으로 하여 input의 일부를 예측/출..
1. Transformer Seq2Seq Model with attention의 개선판, 최근까지 많이 사용되는 architecture 기존 Model에서는 Sequence를 Encoding, Decoding할 때 RNN 기반의 Module을 사용 Encoder & Decoder가 RNN 기반의 Module로 구성됨 Encoder Decoder Attention Module: Decoder의 각 time step에서 Encoder의 hidden state vector중 원하는 정보를 그때그때 가져갈 수 있도록 하는 추가적인 Module 2. Transformer mdoel에서 sequence를 encoding하는 self-attention Module Transformer Model에서는 attentio..
1. INTRO RNN 자연어라는 data가 특정한 순서를 가지고 들어오는 입력 data라는 것에 착안하여 sequence data를 처리할 수 있는 핵심요소 RNN을 기반으로 입력, 출력이 sequence로 주어지는 Seq2Seq라는 Task 그에 대한 special case인 language modeling task까지 자연어 처리를 중심으로 함 2. RNN Sequence Data에 특화된 형태 RNN이라는 동일한 Function을 반복적으로 호출 $X_{t}$ : 특정 time step $t$에서의 input vector $h_{t-1}$ : 이전 time step $t-1$에서의 동일한 RNN Function이 계산했던 hidden state vector $f_{W}$ : $h_{t-1}, X_..
1. Various Neural Network Architectures Fully connected Neural Network 입력 노드와 출력 노드가 모두 특정한 가중치의 형태로 연결된 Network Convolution Neural Network (CNN) CV, 영상처리에서 많이 사용 Recurrent Neural Network Sequence data, Time-series data에 적용 Classification: Image recognition (이미지 분류 task) Retrieval: 자연어로 된 query문을 주었을 때 query에 부합하는 관련성이 높은 image들을 검색 사람의 신체를 대상으로 하여 자세를 추정 의료 영상이나 문자 인식, 알파고 Challenges in CV Task..
1. Gradient Descent Training Neural Networks via GD 최적화를 하고자 하는 parameter와 학습 data를 neural network에 입력으로 집어넣기 Ground truth 값과 비교함으로써 차이를 최소화하도록 하는 loss function을 형성 loss function을 최소화하는 parameter를 찾기 $\theta \: \leftarrow \: \theta - \alpha g$ Loss function이 굉장히 복잡한 형태일 경우 Gradient Descent 알고리즘은 수렴속도가 상대적으로 굉장히 느리다 Loss function의 등고선 중앙이 가장 낮은 분지 x축, y축은 neural networ의 weight (parameter) x축을 단면으..
1. Deep Neural Network의 기본 동작 과정 - 인공지능 : 지능형 기계를 만드는 과학이나 공학의 분야 / 인간의 지능(지적능력, 사고방식) 을 인공적으로 만든 것 - 머신러닝 : 기존의 데이터를 알고리즘을 사용해 모델을 만들어내고, 새로운 데이터에 해당 모델을 적용시켜 예측을 하는 방법 - 딥러닝 : 머신러닝의 방법론 중 하나 (비선형 정보처리를 수행하는 계층을 여러 겹으로 쌓아서 학습모델을 구현하는 머신러닝의 한 분야) -> 엄청나게 많은 데이터에서 중요한 패턴을 잘 찾아냄, 규칙도 잘 찾아내고, 의사결정을 잘하게 됨 Artificial Neural Networks linear combination with model parameters & input features Activation..
1. Ensemble Learning 이미 사용하고 있거나 개발한 알고리즘의 간단한 확장 ML에서 알고리즘의 종류와 상관 없이 서로 다르거나, 같은 메커니즘으로 동작하는 다양한 머신러닝 모델을 묶어 함께 사용하는 방식 Supervised learning task에서 성능을 올릴 수 있는 방법 Ensemble (프랑스어) 함께, 동시에, 한꺼번에 협력하여 Classifier Classification Algorithm itself Ensemble Methods train data set을 s1,...,s_n으로 나눈다 각 train data마다 model이 학습을 진행 다수의 model이 각각 결정을 내린 후에 다수결로 예측 결과 제공 Advantages 예측 성능을 안정적으로 향상 (다양한 model의 ..
1. Classification Hyperplane을 기준으로 score 값을 계산하여 classification을 수행 Hyperplane을 구성하는 model parameter가 w이면 w vector는 hyperplane에 수직인 방향으로 생성 여러 개의 Hyper Plane을 그을 수 있음 서로 다른 종류의 Hyper Plane은 서로 다른 성능을 제공할 수 있음 Hyper Plane을 $W_{1}$ 로 잡으면 positive sample들 근처에서 또 다른 positive sample이 나타날 가능성이 높음 Hyper Plane을 $W_{3}$로 잡으면 negative sample들 근처에서 또 다른 negative sample이 나타날 가능성이 높음 즉, 각 Hyper Plane들에서 오류가 ..
1. Classification Supervised Learning: Labeled Data 사용 Output이 discrete 한 경우 Hyperplane을 기준으로 score 값을 계산하여 classification을 수행 Linear Model Input Features & Model Parameter(learnable parameter)의 linear combination으로 구성 Input Feature $x$ 기준 linear 할 필요가 없다 Model Paramter $w$ 기준 linear 하면 Linear Model Input Feature: d-dimension vector Hyper plane: decision boundary Positive sample과 negative sample..