GPU 메모리가 부족하여 학습 파이프라인을 수행하지 못하는 경우에는 batch size를 줄여보세요

UiPath Document Understanding에서 GPU 없이 CPU로만 학습을 수행하면 10배 이상의 시간이 소요될 뿐만 아니라 데이터셋의 최대 페이지 수량에도 제약이 생깁니다.


https://docs.uipath.com/document-understanding/docs/training-pipelines

CPU로만 학습하는 경우, 2021.10 버전 이전까지는 500 페이지가 한계였고, 2021.10 버전에서는 5,000 페이지, 그리고 2022.4 버전부터는 1,000 페이지까지 가능합니다. 이 이상의 페이지를 학습시켜야 한다면 GPU가 필요합니다.

이 정도의 학습량으로는 문서에서 추출할 수 있는 데이터가 매우 제한적이기 때문에 사실상 GPU는 필수라고 할 수 있습니다.

Document Understanding에서 요구하는 GPU는 11 GiB 또는 그 이상의 RAM을 가져야 합니다만, 이보다 적은 8 GiB RAM을 가진 GPU로 데모나 간단한 PoC를 위한 학습을 수행하게 되는 경우가 있습니다.


https://docs.uipath.com/ai-fabric/docs/standalone-single-node-requirements-and-installation#additional-agent-node-with-gpu-support-for-document-understanding

학습 파이프라인 수행 중에 CUDA out of memory 에러가 발생하는 경우, 아래와 같이 batch size를 4 정도로 줄여서 학습하면 메모리 사용량이 줄어들어 에러를 피할 수 있습니다. 이 방법은 workaround일 뿐이고 에러가 항상 없어진다고 보장할 수는 없습니다. 실제 운영 환경에서는 반드시 11 GiB 이상의 RAM을 가진 GPU를 사용해야 합니다.

1 Like