MLOps 개론
in 네이버 부스트 캠프 on Main Course
MLOps에 대한 전반적인 내용을 학습한다.
목차
1. MLOps가 필요한 이유
- 반복적인 업무를 자동화 시킬 수 있다.
- 머신러닝/딥러닝을 적용한 비즈니스 가치를 창출할 수 있다.
- Production환경과 Research환경에서의 차이로부터 발생하는 Risk를 줄이기 위함
- Production환경과 REsearch환경은 다소 차이를 보인다.
- 이러한 차이로부터 생기는 문제를 최소화하고자 한다.
2. MLOps Component 이해
2-1. MLOps Component의 종류
- 인프라 (서버, GPU)
- Serving
- Experiment, Model Management
- Feature Store
- Data Validation (Data Management)
- Continuous Training
- Monitoring
- AutoML
2-2. 인프라 (서버, GPU)
- Production을 베포하기 위해서 어느 정도의 인프라가 필요한지에 대한 search가 필요하다.
- 예상 트래픽이 어느정도 되는지?!
- 이런 트래픽에 대하여 서버의 CPU, Memory는 어느정도로 할 것인지?!
- 혹여나 사이트가 인기가 많아져서 트래픽이 많아지거나, 혹은 트래픽이 적어질 때, 스케일 업, 스케일 아웃이 가능한지?!
- 자체 서버를 구축하여 Production 베포를 할 것인지 혹은 클라우드를 활용할 것인지?!
2-3. Serving
- 우리의 제품을 고객들이 활용할 수 있게 전달해주어야 한다. 이 때, 어떤 방법으로 전달을 하는 것이 보다 효율적인가?!
- 일정 시간마다 Serving을 받기 희망하는 Batch Serving과 실시가능로 받기를 희망하는 Online Serving이 있다.
- Batch Serving은 많은 양을 일정 주기로 서빙하는 것이고, Online Serving은 한 번에 하나씩 실시간으로 서빙하는 것이라고 이해할 수 있다.
- 특히, Online Serving의 경우, 갑작스런 트래픽 증가가 있을 수 있으므로, 병목 현상이 일어나지 않게 대비해야하고, 확장 가능하도록 준비해야 한다.
2-4. Experiment, Model Management
- ML/DL을 실험하는 과정에서, 어떤 모델이 더 좋은지, 어떤 파라미터로 학습 했을 때 성능이 더 좋았는지, inference 속도가 더 빨랐는지 등을 기록하는 것은 정말 중요하다.
- 모델 Artifact, 모델 성능, HyperParameter를 기록하고 좋은 모델을 Production에서 활용한다.
2-5. Feature Store
- 데이터를 전처리와 같은 반복적인 업무를 할 때, 불필요한 시간이 할애되므로, 이를 미리 만들어 놓고 재사용한다면 보다 편리하고 빠르게 이후 업무를 진행할 수 있다.
- Feature Store의 경우, Deep Learning에서는 많이 발전하지 않았고, 정형 데이터에서 특히 많이 발전하였다.
- 현재, library를 활용하기 보다는 직접 개발하여 활용하는 것이 더 많다.
2-6. Data Validation
- Research에서 활용한 데이터 및 feature와 Production에서 활용하는 데이터 및 feature가 유사한지 확인할 필요성이 있다.
- Research의 경우, 고정된 데이터 및 Outlier 처리 등을 진행한다.
- Production은 제품을 활용하는 고객들로부터 얻는 데이터가 있을 뿐만 아니라, 그 중에서는 outlier들이 포함되있을 수도 있으므로, Research 딴에서의 데이터보다 보다 저품질일 확률이 높다.
- 위의 이유로부터, Data Drift, Model Drift, Concept Drift가 발생한다.
- Drift에 대한 내용은 다음의 링크를 참고하도록 하자. How to Detect Model Drift in MLOps Monitoring Productionizing Machine Learning: From Deployment to Drift Detection
2-7. Continuous Training
- 활용하고 있던 모델을 중간에 다시 학습해야하는 경우가 있다. 특히, 트렌드는 짧은 시간 내에 바뀌기를 반복하므로 이러한 정보를 얻고 학습하고를 반복할 필요성이 있다.
- Product를 활용하는 고객으로부터 얻어지는 새로운 데이터를 모델에 재학습하기 위해!
- Metric 기반으로 성능이 떨어졌을 경우, 다시 높이기 위해 재학습을 진행한다.
2-8. Monitoring
- Research에서 발견한 Model에 Production에서도 잘 작동하는지를 기록해야한다.
- 모델의 지표가 어떻게 변하는지 확인한다.
- 인프라의 성능이 어떻게 변화하고 있는지 확인한다.
2-9. AutoML
- 사람이 하나 하나씩 모델을 집어넣어 학습을 진행하기에는 소모되는 비용 대비 얻어지는 이득이 적다.
- 이를 AutoML로 대채함으로서 Research, Production에서 모두 이용하고, 어떤 차이가 있고 어떤 모델이 성능이 좋은지 자동으로 학습 및 확인할 수 있다.
3. 기타 논의
- 매력적으로 생각하는 MLOps Component TOP3
- AutoML: 사람이 하는 일을 자동으로 처리해줌으로서 일의 유연성을 늘릴 수 있다.
- Continuous Training: Production이란 고객들의 수요, 트렌드에 예민하다. 이를 보다 잘 모델에 반영하기 위하여 Continuous Training은 보다 중요한 Component라고 생각한다.
- Serving: 특히 Online Serving의 경우, “빨리 빨리”를 강조하는 현대 사회에서, 굉장히 중요한 부분이라고 생각하며 이를 잘 해내는 것은 선택이 아닌 필수라고 생각한다.