• 카테고리

    질문 & 답변
  • 세부 분야

    컴퓨터 비전

  • 해결 여부

    미해결

tensorboard error

22.11.06 20:01 작성 조회수 476

0

안녕하세요 강사님,

저는 보완 문제로 폐쇄 네트워크환경(소스내에서 downloac 차단)에서 object detection AutoML을 실행하고 있습니다. yolov3 소프 포팅후 자체 host pc에서 running이 되도록 해야 하는데 환경구축이 만만치 않네요.. 모든 datasets zip 파일들을 따로 다운 받아 집에서는 vs code나 jupyter notebook으로 작업하고 회사에서는 kubeflow notebook 환경에서 테스트 진행하고 있습니다.

질문 1: coco val & coco test에서 --data coco.yaml 대신 --data coco128.yaml로 실행해도 되는 건지 알고 싶습니다.

질문 2: train.py 전에 tensorboard launch 시 에러가 나옵니다. 해결 방법을 알려 주시면 감사 하겠습니다.

스크린샷 2022-11-06 18.44.56.png

질문 3: 질문2의 에러가 해결되어 train.py 실행 되는 건지, 그리고 coco test를 하지 않고 바로 train.py를 진행해도 되는건지 알고 싶습니다. 집에서 vs code나 jupyter notebook에서 train.py 실행을 하면 아래 같은 에러가 나옵니다.

  • coco128.yaml 에서 download 차단 없이 진행하면 kernel 이 죽어 restarting 이 되고 진행이 안되네요..

  • download 차단하면 맨 아래 캡쳐 화면 처럼 멈쳐 버리고 Dead kernel 이 되어 버립니다. 혹 질문 2의 tensorboard 에러와 관련이 있는 건지 알려 주시기 바랍니다.

스크린샷 2022-11-06 19.57.24.png스크린샷 2022-11-06 19.58.07.png스크린샷 2022-11-06 22.36.23.png질문 4: 마지막 질문인데.. 이 질문은 강의 내용에서 벗어나는 질문 이지만 해결을 못하고 있어 조언을 듣고자 합니다. 로컬 호스트 환경에서 yolov5 train.py가 잘 돌고 있는 상황에서 docker 이미지 빌디시 Dockerfile의 베이스 이미지를 FROM nvcr.io/nvidia/pytorch:21.10-py3 로 하면 container 가 바로 죽고 실행이 안되며, FROM python:3.9로 하면 container가 running 되는데 train.py 가 실행되다 epochs를 하다 멈쳐 버립니다. 이 문제가 gpu 문제인건지 아님 단지 memory 부족 문제인지 잘 판단이 안되는데.. 소중한 의견 주시면 감사 하겠습니다.

 

답변 2

·

답변을 작성해보세요.

0

ohwhy님의 프로필

ohwhy

질문자

2022.11.07

설명 감사합니다~

0

안녕하십니까,

지금 실습을 보안 환경에서 수행하면서 오류가 나오는 건지요?

아니면 저와 동일한 코랩 환경에서 수행하는데 오류가 나오는 건지요?

먼저 이것부터 확인이 필요할 것 같습니다.

그리고 오류가 나는 부분이 coco128 데이터로 Train 실습 - wandb(weight and bias) 적용하기

영상인지요? 이전 영상인 coco128 데이터로 Train 실습 - train.py 수행해보기 은 정상적으로 잘 수행이 되었는지요?

이전 영상이 잘 수행되었다면 wandb까지는 굳이 실습해보시지 않아도 됩니다. 더구나 네트웍 보안 환경이라면 더더욱 안해보셔도 될 것 같습니다.

질문 1: coco val & coco test에서 --data coco.yaml 대신 --data coco128.yaml로 실행해도 되는 건지 알고 싶습니다.

=> 음. 질문을 이해하지 못했습니다. coco val & coco test에서 --data coco.yaml 이 제 실습 코드에 나온 부분인가요?

질문 2번, 3번은 위에서 제가 처음 질문 드린 내용을 명확하게 부탁드립니다.

질문 4번은 적어주신 docker base file이 어떤건지도 제가 알수 없으며, 말씀하신 장애 상황만 가지고는 저도 뭐가 문제인지 알수가 없습니다.

다만 메모리가 문제이면 epochs가 1회 수행하기 전에 죽는 경우가 많습니다. 그리고 coco128 데이터 세트가 그렇게 많지 않기 때문에 메모리가 부족할 것으로 보이지는 않습니다.

 

위에서 말씀드린 내용을 좀 더 명확하게 해주시면 좋을 것 같습니다. 또한 아무래도 colab 환경이 아니고 로컬 환경이면 답변에 제약이 있을 수 밖에 없음을 양해 부탁드립니다.

감사합니다.