Skip to the content.

Online bigsize pattern

Case

Situation

웹 서비스와 배치 시스템을 포함한 모든 서비스에는 완료 시간에 대한 요구 사항이 있습니다. 예를 들면, 웹 서비스에서는 모든 요청의 평균 응답 시간이 1초 이하가 되어야 한다는 것이 있습니다. 배치 시스템에서는 1억 개의 요청을 저녁 6시간 내에 처리해야 한다는 것이 요구 사항이 될 수 있습니다. 어떤 비즈니스 또는 시스템이든지 간에, 시간은 한정되어 있는 귀중한 자원이기 때문에 1회 처리에 무한정의 시간을 소비할 수 없습니다. 작업의 소요되는 시간을 측정할 수 있는 유용한 단위는 머신러닝 시스템이 예측에 소비하는 평균 초로, 이 단위를 기준으로 요구 사항에 충족할 수 있게 모델과 예측 시스템을 설계해야 합니다. 특히 시간이 많이 걸릴 수 있는 복잡하고 거대한 딥러닝 모델을 사용하는 경우에는 어떻게든 최적화해야 합니다. 최악의 경우, 웹 실시간 서비스로는 사용이 불가능할 수 있습니다. 단위 예측 응답 시간이 요구 사항을 충족하는 경우에만 적용할 수 있지만, 스케일 업 또는 스케일 아웃을 시도해 서버당 동작하는 프로세스 양의 균형을 맞출 수 있습니다. 또는 CPU보다 비용이 많이 들 수도 있지만, 예측 특화형 GPU를 사용할 수도 있습니다. 성능과 지연 시간을 충족시키기 위해 간단한 모델을 만드는 것도 최선의 선택일 수 있습니다.
모델의 성능과 속도의 균형에 정답은 없습니다. 따라서 비즈니스 및 시스템 요구사항에 따라 성능 및 속도의 서비스 수준을 정의하는 것이 중요합니다.

Diagram

diagram

Pros

Cons

Work around