Train Error가 발생합니다
852
작성한 질문수 63
안녕하세요 train을 진행하는데 다음과 같은 오류가 발생합니다.
RuntimeError: CUDA out of memory. Tried to allocate 100.00 MiB (GPU 0; 11.17 GiB total capacity; 10.15 GiB already allocated; 79.81 MiB free; 10.64 GiB reserved in total by PyTorch)
반복해서 해봐도 에포크가 안돌고 학습이 진행이 안되면서 다음과 같은 오류가 뜨네요 ㅠㅠ
+) 가끔은 런타임에러가 아닌
/usr/lib/python3.7/multiprocessing/semaphore_tracker.py:144: UserWarning: semaphore_tracker: There appear to be 6 leaked semaphores to clean up at shutdown len(cache))
라는 에러가 뜨면서 역시 에포크가 안도네요ㅠㅠ
답변 2
0
음, 그렇군요. 아래와 같이 batch size를 8로 바꿔보십시요.
0
안녕하십니까,
GPU 메모리를 과도하게 사용하는 것 같습니다. BATCH SIZE를 지금 어느정도 잡으셨는지는 모르지만, COLAB에서 실습 코드가 BATCH SIZE 16일 때 정상적으로 동작합니다.
근데, 메모리 사이즈가 나온걸로 보면, COLAB을 사용하지 않으신것도 같습니다만, 만일 COLAB을 사용하지 않으면 BATCH SIZE를 8로 줄여서 다시 학습 시켜보시기 바랍니다.
그리고 아래 메시지는 COLAB에서는 나오는 건가요?
/usr/lib/python3.7/multiprocessing/semaphore_tracker.py:144: UserWarning: semaphore_tracker: There appear to be 6 leaked semaphores to clean up at shutdown len(cache))
MMDetection 버전 이슈
0
51
2
강의 환경설정 질문
0
61
2
Custom Dataset에서의 polygon 정보 관련
0
113
3
cvat.ai 보안 수준이 궁금합니다
0
98
2
캐클 nucleus 챌린지 runpod 실습 코드 에러 질문드립니다.
0
120
3
추론 결과의 Precision(또는 mAP) 평가 방법
0
94
2
mmdetection mask rcnn inferenct 실습 시 runpod 템플릿 관해서 질문드립니다.
0
68
2
runpod에서 google drive 연결 시 오류 발생
0
126
2
로드맵 선택
0
74
1
mmcv
0
65
2
Anchor box의 Positive 처리 위치
0
71
2
해당 강의 runpod 적용 후 에러 제보드립니다
0
95
2
run pod credit 관련 제보
0
125
2
mmdetection 2.x과 3.x 호환 관련 표기
0
89
2
mm_faster_rcnn_train_kitti.ipynb 실행 오류
0
114
3
질문 드립니다.
0
89
3
mm_faster_rcnn_train_coco_bccd 실행 오류 질문드립니다.
0
89
1
강사님께 수정을 제안드리고 싶은 것이 있습니다.
0
102
1
google automl efficientdet 다운로드 및 설치 오류
0
87
1
이상 탐지에 사용할 비전 기술 조언 부탁드립니다.
0
111
2
OpenCV 관련 질문드립니다.
0
87
2
mmcv 설치관련해서 문의드려요
0
355
3
강의 구성 관련해서 질문이 있습니다
1
141
2
모델 변환 성능 질문드립니다.
0
125
1





