First P-stage 4(Day 18)
in 네이버 부스트 캠프 on Main Course
Training & Inference에 대하여 학습한다.
부스트 캠프 18일차 학습 요약
- 행사 : 마스터 클래스
- 학습 : 학습 요소, Training & Inference
- P-Stage : ResNet18, ResNet50, ResNext50_32x4d, Augmentation 적용
- 피어 세션
목차
1. 학습 요소
1-1. Loss
- Loss는 위의 그림과 같은 방식으로 Error를 발생해 Backpropagation에 영향을 미친다.
- Loss는 nn.Module의 상속을 받고 nn.Module의 Family로서의 역할을 한다.
loss.backward()
를 사용하여 backward과정을 진행할 수 있으며, 이는 모델 Parameter의 grad값을 업데이트 시킨다.- Loss란 Error를 만들어내는 과정에 양념을 치는 것이라고 이해하면 조금 쉽다.
- 조금 특별한 몇 가지 loss의 예시를 살펴보자.
- Focal Loss : Class Imbalance 문제가 있는 경우, 맞춘 확률이 높은 class의 경우 조금의 loss를, 맞춘 확률이 낮은 class의 경우 loss를 높게 부여하는 방식이다.
- Label Smoothing Loss : class target label을 one-hot 방식(예를 들어, 이진분류 일 때 1 or 0으로 표시)으로 표현하기 보다는 조금 Soft하게 확률로 표현해서 일반화 성능을 높이기 위해 사용한다. 즉, 동시에 다른 피쳐들에 대해서도 점수를 준다고 이해할 수 있다.
1-2. Optimizer
- 어느 방향으로, 얼마나 움직일 것인지를 정하며, 영리하게 움직일수록 빨리 수렴한다.
- 다양한 Optimizer에 대한 설명은 여기를 참고하도록 하자.
- Learning Rate를 동적으로 조절하기 위해 다양한 LR Scheduler가 등장했고 다음과 같은 LR Scheduler들이 있다.
Step LR : 특정 Step마다 LR 감소
CosineAnnealingLR : Cosin 함수의 형태와 같이 LR을 급격하게 계속 변경해준다. LR을 급격하게 변화해줌으로서 Local Minimum에서 효과적으로 탈출할 수 있다.
ReducedLROnPlateau : 일반적으로 가장 많이 사용하는 LR Scheduler이고, 주어진 LR로 더 이상의 성능 향상이 없을 때 LR을 감소시키며 진행한다.
보통, 변화를 많이 꾀하는 경우에는 Cosine Annealing을 많이 사용하며, 안정적인 학습을 위해서는 ReducedLROnPlateau를 많이 사용한다.
1-3. Metric
- 학습에 직접적인 영향을 미치지는 않는다.
- 실제 Production에 쓸 수 있을 정도가 되는지 확인하기 위해서는 Metric이 필수적이다.
- Competition의 경우, Metric을 미리 정해주지만 현업에서는 어느 누구도 정해주지 않으므로, 많은 Competition 경험을 바탕으로 현업에서 적재적소에 알맞은 Metric을 활용할 수 있어야 한다.
- 데이터의 상태에 따라 적절한 Metric을 선택할 수 있어야 한다.
- 다양한 Metric
- Classification : Accuracy, F1-Score, Precision, Recall, ROC&AUC
- Regression : MAE, MSE
- Ranking(특히, 추천시스템) : MRR, NDCG, MAP
2. Training & Inference
2-1. Training Process
- Traning 준비
- Training 이전의 과정으로, Dataset -> DataLoader -> Pre-Trained Model -> Loss/Optmizer/Metric을 지정했으며 이제야 Training을 진행할 수 있다.
- model.train()
- 이 코드로 부터, 모델을 trainable하게 만들 수 있다.
- train, validation에 대하여 Dropout, Batchnolaization 등이 조금 다르게 동작되어야 하므로, train mode인지 evaluation mode인지로 나뉘게 된다.
- model.eval()의 경우 validation에 대하여 정의하는데, model.train(False)와 동일하다고 되어있다.
- optimizer.zero_grad()
- grad값을 초기화 해준다.
- grad값을 초기화해주지 않으면, 이전 Batch에서 사용하던 grad가 그대로 넘어와 loss.backward()가 진행되므로 일반적으로 초기화 해준다.
- loss
- loss는 다음과 같이 정의해준다.
- loss의 경우(위의 그림에서는
torch.nn.CrossEntropyLoss()
) 정의하게 되면, 각 gradient들의 chain이 발생하게 되며loss.backward()
를 통해 연결된 모든 Parmaeter들의 grad값을 줄 수 있다. loss.backward()
를 통해 모든 Parameter들의 grad가 정해지고,optimizer.step()
를 통해 Parameter값들의 업데이트가 진행된다.- 즉, loss는 grad를 업데이트 하고, optimizer는 실제 사용할 Parameter를 업데이트한다고 이해하면 쉽다.
- Training Process의 응용
- 다양한 응용이 있을 수 있지만 아래의 Gradient Accumulation을 확인해보도록 하자.
- Gradient Accumulation은 Batch_size를 늘리고 싶은데, 하드웨어의 성능의 제한이 있을 경우 많이 사용한다.
- 원하는 Batch만큼의 loss를 쌓아주고, optimizer.step()을 원하는 Batch만큼 진행했을 때 진행함으로서 Batch_size를 늘려주는 효과를 가질 수 있다.
2-2. Inference Process
- Inference 프로세스의 이해
- model.eval() : Evaluation mode이며, 앞서 말한 것과 같이 model.train(False)와 동일하다.
- with torch.no_grad() : torch.set_grad_enabled(False)를 의미하며, 모든 grad_enabled를 False로 만들어준다.
- Validation 셋을 만들어줌으로서 검정을 진행할 수 있다.
- Checkpoint는 다음과 같은 형태로 직접 코딩하여 만들 수 있다.
- 마지막으로, 최종 output, submission형태로 변환하여 만들어 Competition에 제출할 수 있도록 만들어준다.
2-3. PyTorch Lightning
- 실제로 현업에서는 생산성이 정말 중요하며, 반복적인 업무를 보다 효율적으로 하기 위해서 등장하였다.
- 위에서 했던 프로세스를 간략하게 Class로 정의해서 불러와 마치 Keras와 같은 형태로 사용할 수 있다,
- 다만, Deep Learning Process에 대한 이해를 위해서는 위에서 처럼, PyTorch를 활용하여 구현해보는 것이 좋으며, 충분한 이해가 됬을 때에 PyTorch Lightning을 사용하도록 하자.
- 빠르게 개발해야할 경우, 사용하면 좋다.
3. P-Stage
- ResNet18, ResNet50, ResNext50_32x4d를 활용한 Fine-Tuning 진행
- Gradient Accumulation을 활용하여 Batch_size를 증가시킨 후 학습진행(ResNext50_32x4d Batch_size 64 -> NUM_ACCUM 4 -> Batch_size 256)
- Epoch의 변화를 주어 학습
- test set에서의 점수의 급격한 하락으로 인해, Overfitting 의심이 되어 Augmentation 코드화
4. 피어 세션
4-1. 다양한 시도
- VGG → DenseNet활용하여 성능 증가
- Crop만 진행 → 성능 증가 x
- ResNet50활용 (Parameter의 수를 봤을 때, 적절한 것 같다)
- Crop진행 → Shape의 문제 발생 → Shape이 같아야 Batch를 뽑아올 수 있는 것으로 보이나 어떻게 Shape을 맞춰줘야 하는지에 대해서는 미지수.
- ResNext50_32x4d 활용
- 얼굴 위치에 대한 분포도를 바탕으로 평균, 분산을 활용하여 적당한 Crop 진행 → 얼굴이 해당 위치에 있었으면 했지만 잘 나오지는 않음
- 전처리를 활용하여 주름을 구분해낼 수 있다.(Contrast, Sharpness, Brightness, Color)
4-2. 해 볼 시도
- OverSampling
- SMOTE → 직접 적용하기에 어려움이 있지만 시도 해볼 것이다.
- Label이 작은 것을 랜덤 복제하여 Sampling 시도
4-3. 질답
- KFold는 Data 수가 너무 적을 때, Validation Set의 Robustness를 주기 위해서 활용하는 방안인데 코드에 직접 입력할 때 성능의 개선이 이루어졌다. 왜 그럴까? → 이전 Fold에서의 개선된 Parameter가 다음 Fold로 이어짐으로서 성능 향상을 나타낸다.
Gradient Accumulation에서 Num_Accum으로 loss를 나누어주게 되는데, 왜 이렇게 하는가? → 이유 모색 후 토의
Gradient Accumulation에서 Num_Accumulation에 대한 내용을 이해가 안된다. → Loss를 일반화 시킨다?? 찾아보자!!!
Brightness & Contrast를 활용하여 배경을 아예 흰색으로 만들 수 있지 않을까? → 일정 임계값 이하일 경우, 배경이 검은색이라면 얼굴이 날아갈 위험이 있다.
Focal Loss 직접 활용해 보았는가? → Weight를 직접 조정할 수 있는데 이것이 Focal Loss의 방법과 유사한 것 같다.
- 서버에서 깃헙으로 바로 업로드하는 방법이 있는가? → 기존의 방식에서 조금 변화가 있어, 이제는 token을 입력해주면 서버에서 깃헙으로 업로드 할 수 있다.
5. 18일차 후기
어느 정도 Baseline Code가 잡혀서 인지 다양한 시도들을 해볼 수 있었다. ResNet18 ,50, DenseNet등에서 실험적으로 성능이 좋게 나오는 것으로 보아 큰 사이즈의 이미지와 연관성이 있는 것도 같고, 왜 성능이 좋게 나오는지를 조금은 더 알아볼 필요성이 있는 것 같다.
더불어, 팀원들의 다양한 시도덕분인지 많은 인사이트를 얻어갈 수 있었고 앞으로 조금더 많은 시도들을 해볼 것 같다!
Accumulation, Focal Loss 등 수업에서 배운 내용 뿐만 아니라 피어세션을 통해 얻은 아이디어를 바탕으로한 Data 전처리 및 Augmentation을 적용해볼 것이다.
이러한 노력 끝에 좋은 결과를 얻을 수 있도록 최선을 다해야겠다.
6. 해야할 일
- Loss 코드 분해해보기
- Focal Loss 적용하기
- Label Smoothing Loss 적용하기
- LR Scheduler 적용해보기
- Gradient Accumulation에서 loss를 NUM_ACCUM으로 나누는 이유는 무엇인가? 학습하기로는 일반화를 해주기 위해서라고 하였는데 이는 무엇을 의미하는가?