• 카테고리

    질문 & 답변
  • 세부 분야

    컴퓨터 비전

  • 해결 여부

    미해결

jupyter notebook에서 valid 실행시 커널이 죽는 문제 문의

22.11.09 00:18 작성 조회수 184

0

안녕하세요. 필요할 때마다 강의로부터 많은 도움 받고 있습니다.

질문드릴 것이 있습니다.

 

기존에는 항상 코랩으로 진행을 하다가 이번에 jupyter notebook(랩 서버 gpu 사용)을 사용하려고 하였는데, train까지는 잘 진행되었는데 interval마다 평가 진행후에 kernel이 죽는 문제가 발생하였습니다.

현재 저는

  • mmdetection을 clone한 후에, 필요한 것들을 설치하여 사용하고 있습니다.

  • mmdetection은 최신 버전일 것이고, mmcv를 제 pytorch 버전과 cuda 버전에 맞추었습니다.

  • gpu를 하나만 사용하고 있습니다.

  • 데이터셋은 custom 데이터셋을 사용하고, 혹시 제가 코드를 잘못 짰나 했는데 코랩에서는 잘 학습이 됩니다.

 

구글링해도 잘 못찼겠어서, 혹시 관련 이슈에 대해서 해결책이 있는지 문의 드립니다. 감사합니다.

서버에서 어떻게 돌아가는지 보니 cpu를 xxx% 잡아 먹는 것을 보아 cpu 문제라고도 생각했는데, 그러면 코랩에서도 실행이 안되어야 할텐데, 이는 아니라서 고민 중에 있습니다. 감사합니다.

답변 1

답변을 작성해보세요.

0

안녕하십니까,

제 강의가 도움이 되고 있다니 저도 기쁩니다 ^^

먼저 Colab이 아닌 개인 실습 환경에서 수행하시는 상황은 제가 원격으로 Q&A를 할 수 밖에 없어서 답변에 제약이 있음을 양해 부탁드립니다.

train이 잘 되었다는게 전체 epoch만큼 다 완료가 되었다는 건가요? 아님 1회 epoch 후에 valid 데이터세트로 평가할 때 장애가 발생한다는 건지요? 그리고 오류 메시지는 어떻게 되는지요?

train이 1 epoch를 완료하지 못하고 장애가 발생하는 경우는 GPU 메모리가 부족한 경우를 의심해 볼 수 있습니다. 학습 이미지 수를 1/3 정도로 줄이고 테스트 해보시지요.

적용 후에 상황 업데이트 부탁드립니다.

 

비밀님의 프로필

비밀

질문자

2022.11.09

epoch 6마다 valid로 평가하는 것으로 이해를 했는데, 평가 시에 오류가 뜹니다.

그리고 segmentation mAP 결과가 출력이 되지 않는 문제도 추가로 있습니다.

제가 포맷을 잘못 짜서 JSON으로 저장했다면 코랩에서도 오류가 떠야하는데, 이는 문제 없이 잘 출력이 되더라구요

다만 CPU를 600% 정도씩도 먹는 거 보면 메모리 문제도 고려해봐야 겠습니다.

감사합니다!