-
카테고리
-
세부 분야
컴퓨터 비전
-
해결 여부
미해결
Train Error가 발생합니다
21.09.03 21:27 작성 조회수 682
0
안녕하세요 train을 진행하는데 다음과 같은 오류가 발생합니다.
RuntimeError: CUDA out of memory. Tried to allocate 100.00 MiB (GPU 0; 11.17 GiB total capacity; 10.15 GiB already allocated; 79.81 MiB free; 10.64 GiB reserved in total by PyTorch)
반복해서 해봐도 에포크가 안돌고 학습이 진행이 안되면서 다음과 같은 오류가 뜨네요 ㅠㅠ
+) 가끔은 런타임에러가 아닌
/usr/lib/python3.7/multiprocessing/semaphore_tracker.py:144: UserWarning: semaphore_tracker: There appear to be 6 leaked semaphores to clean up at shutdown len(cache))
라는 에러가 뜨면서 역시 에포크가 안도네요ㅠㅠ
답변을 작성해보세요.
0
권 철민
지식공유자2021.09.05
음, 그렇군요. 아래와 같이 batch size를 8로 바꿔보십시요.
김남욱
질문자2021.09.07
앗 제가 헷갈렸습니다. 이미지 수가 아니라 이미지 크기였습니다ㅠㅠ 저는 말씀해주신대로 배치 사이즈와 이미지 크기도 함께 줄여주니 잘 수행되었습니다!
0
권 철민
지식공유자2021.09.04
안녕하십니까,
GPU 메모리를 과도하게 사용하는 것 같습니다. BATCH SIZE를 지금 어느정도 잡으셨는지는 모르지만, COLAB에서 실습 코드가 BATCH SIZE 16일 때 정상적으로 동작합니다.
근데, 메모리 사이즈가 나온걸로 보면, COLAB을 사용하지 않으신것도 같습니다만, 만일 COLAB을 사용하지 않으면 BATCH SIZE를 8로 줄여서 다시 학습 시켜보시기 바랍니다.
그리고 아래 메시지는 COLAB에서는 나오는 건가요?
/usr/lib/python3.7/multiprocessing/semaphore_tracker.py:144: UserWarning: semaphore_tracker: There appear to be 6 leaked semaphores to clean up at shutdown len(cache))
답변 2