월 24,200원
5개월 할부 시다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
/dev/null 질문입니다.
kitti_tiny 다운로드 받은 후 zip을 풀어줄 때, !unzip kitti_tiny.zip > /dev/null 이라고 되어 있는데요, 여기서 /dev/null은 어떤 뜻인가요? 구글에 찾아보면 버려지는 출력을 저장하는 곳이라고 나오는데, 주피터에서도 같은 의미인지 궁금합니다. zip을 기본 루트 티렉터리인 /content에 압축해제한다고 하는데, 그거랑 /dev/null이랑 어떤 관련이 있는 것인지 궁금합니다. ^^ 좋은 강의 감사드립니다.
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
이전에 했었던 voc2coco와 차이점이 궁금합니다.
예전 MMDetection 사용시에는 데이터셋 포맷변경을 위해 voc2coco 를 사용했었는데, 해당 강의에서 사용한 Dataset-Converters와 차이점은 무엇이고 왜 해당 유틸리티를 사용했는지 알고싶습니다.
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
inference된 이미지에서 마스크 영역만 jpg로 다시 저장할 수 있는지요?
선생님 안녕하세요. MMDetection 이용하여 inference 후, 마스크 이외 영역은 버리고, 마스크 영역만 검정색으로 원본 사이즈로 jpg로 다시 저장할 수 있을가요? 감사합니다.
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
inference된 이미지에서 마스크 영역의 x,y 좌표 추출 재질문
안녕하세요 선생님, 풍선 가지고 테스팅 중인데요, 말씀하신대로 했는데... 에러가 났습니다. 풍선에서는 Class가 하나뿐이어서 result[1][0][0]로 인덱스를 조절했더니 이렇게 나옵니다. 풍선처럼 단일 Class일 경우에는 이렇게 하는게 맞는지요? 여기서 x,y 좌표만 추출하려고 하면 어떻게 해야 하는지 재문의 드립니다. x좌표는 328, 328, 328, ... 760, y좌표는 718, 719, 720, ... 796 가 맞는지요? 아니면 y좌표는 328, 328, 328, ... 760, x좌표는 718, 719, 720, ... 796 가 맞는지요? 한가지만 더 여쭙니다. 여기서 바운딩 박스 좌표 4개만 추출 하려고 한느데요, 선생님 강의대로 해봤습니다. 아래에서 0.9932는 confidence 이고, 580.5786부터가 좌표 맞는거죠? 맞다면 4개 값들이 각각 (x1,y1), (x2,y2)로 어떻게 매핑되는지 문의드립니다. Inference 한 이미지 는 이것입니다. 감사합니다.
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
MMdetection Transfer learning에 관련하여.
안녕하세요. 이번에 강의를 들으면서 Mask-RCNN 모델을 프로젝트에 적용해보려 준비중인 대학원생입니다. MMdetection에서 제공하는 COCO dataset으로 12 epochs pretrained model을 불러와서 전이학습을 하여 ballon dataset을 이용해 학습하는 것으로 강의 내용을 이해했습니다. 이 과정에서 모델을 학습하는데 정확히 어떤 어떤 부분의 weight 들이 학습되는지 궁금합니다. Transfer learning이라고 하면 보통 단순히 image classification model이라면 feature extraction 하는 부분은 그대로 학습에 반영하지 않고 FC layer의 output layer만 학습시킨다는 이야기도 보이는 것 같아서요. (예를들어 https://neptune.ai/blog/transfer-learning-guide-examples-for-images-and-text-in-keras 와 같은 정보를 참고했습니다.) 만약 MMdetection의 train_detector를사용하여 학습할 경우 어떤 부분의 weight들이 학습에 반영되고 어떤 부분이 고정된 상태로 학습이 진행되는지 궁금합니다. 감사합니다.
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
최초 inference 와 두 번째 inference간의 Detection 수행시간 차이 관련
안녕하세요. 강사님 강의를 듣다가 질문이 생겨서 여쭤봅니다. 학습이 완료된 모델을 가지고 강의에 있는 예제 사진을 inference 할 때, 최초 inference 시 Detection 수행시간이 8.xx초가 나오고, 같은 코드를 한 번 더 실행하면 수행시간이 0.05초로 엄청난 차이를 보이는데 그 이유가 궁금합니다. 단순히 이 사진뿐만 아니라 강의에서 진행하시는 inference마다 거의 같은 양상을 보여서 질문드립니다.
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
질문 다시 올립니다!
제가 이해한 faster r-cnn 입니다. 제가 잘못 이해한 부분이 있으면 지적 부탁드리겠습니다. (논문을 참고하여 공부했습니다.) 1. anchor box 배정 2. GT 를 통해 anchor box 의 positive, negative, non 배정. 3. 임의로 선정된 positive, negative box 를 통해 rpn 학습. - 3.1. cls layer 을 통해 objectness score, classification score 학습 -3.2. reg layer 을 통해 transformation function 학습 4. positive anchor box 를 통한 fast r-cnn 의 classification 학습 질문 1. Anchor box 는 하나의 target box 와 대응되나요? 여러 GT 와 높은 IOU 를 보인다면 어떻게 되나요? 2. ROI pooling 이란 3.1 단계를 뜻하는 건가요? 3. Test 단계에서는 GT 가 없는 상태이기 때문에 모든 anchor box 의 objectness score 와 regression score 을 계산하나요? 아니면 Test 단계에서는 cls layer 를 통해 positive, negative, non 을 정한 후 reg layer 에 투입되어야 하지 않나요? Training 과 Testing 단계 순서의 차이를 제대로 이해하지 못한 것 같습니다. 4. 3번 질문과 비슷한 맥락에서 loss function 을 보면 regression loss 을 계산할 때 positive box 에 대한 loss 만을 고려하기 위해 ground-truth label 을 곱해주는데, 애초에 negative box 에 대한 regression 은 왜 이루어지는 건가요? cls layer 와 reg layer 간의 순서 없이 동시에 학습된다는 게 잘 이해가 되지 않습니다. 5. 논문을 보면 학습 방법으로 세가지를 제시하는데 (alternating training, approximate joint training, non-approximate joint training) alternating training 부분에서 RPN 을 먼저 train 하고, RPN 의 proposal 들을 사용하여 Fast R-CNN 을 train 한 후, tuning 된 Fast R-CNN 을 RPN initialization 에 사용한다고 하는데, 어떻게 더 뒤에 있는 Fast R-CNN 을 통해 앞에 있는 RPN 을 initialize 한다는 건가요? 6. Anchor box 객체의 변수로 center x, center y, width, height, classes 와 같이 anchor box 자체와 관련된 변수들 밖에 없는데, positive anchor box 와 해당 anchor box 의 target box 는 어떻게 매칭되는 건가요? 또, negative, non 인 anchor box 와 positive anchor box 모두 같은 변수들을 가지고 있어, positive 하지 않아도 class 에 대한 초기값을 가지나요? (밑바닥부터 구현을 시도하던 중 궁금증이 생겨 질문드립니다.)
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
inference된 이미지에서 마스크 영역의 x,y 좌표 추출
안녕하세요 선생님, 아래 mm_mask_rcnn_train_balloon.ipynb 셀 수행하면, 트레인된 모델을 가지고 inference된 그림을 보여주는데요, 여기서, inference된 segment 값들(즉 x,y 좌표)을 추출하려면 어떻게 해야 하는지 여쭙니다.
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
영어로 질문드려요!
My brief understanding of Faster R-CNN 1. assign anchor box 2. finding anchor box objectness score (rather positive, negative, non) using ground truth 3. select a set of positive, negative boxes to train region proposal network 4-1. training classification layer using positive anchor box 4-2. training box regression layer using positive anchor box Questions Q1. When an anchor box has high IOU with several ground truth boxes is the highest box chosen as the target? Can an anchor box only have on target? Q2. How is a positive anchor box and its target box matched in code? (Most explanation says an anchor box object contains four variables; center x, center y, width, height, which has no value for its target.) Q3. Is ROI pooling referring to stage two? Q4. Is the third stage training used to predict the objectness score for test set? Q5. Is there a reason other than training speed, for not training anchor boxes that are not labeled as either positive or negative? (Aren’t all boxes’ objectness score estimated when training? Including positive, negative, non) Q6. Shouldn’t 4-1 classification happen after moving of the box during 4-2 box regression? (Explanations say the two layers are independent and happen simultaneously) Shouldn’t the two layers have order? Q7. Is the probability of an anchor box used for NMS referring to the classification score calculated in stage 4-1? Q8. Unlike the RPN stage where all anchor boxes are used for training, the classification and regression stages only use a few positive anchor boxes. How does back-propagation happen when training a model like this, where some stages use only a part of the training set? (I heard the advantages of Faster-RCNN is the connection of all stages as a single deep-learning model. But if the latter models only use chosen boxes and if the classification/box regression stage works independently how can the full model work as one?)
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
object detection yolov5 loss gain에 대해서 질문이 있습니다
안녕하세요 yolov5에서 hyp보면 loss마다의 gain이 서로 다른데, 이는 실험적으로 나온 것인가요? 아니면 이론적으로 범위가 존재하는 것인가요? 아니면 일단 obj인지 알아야 cls, box loss 계산이 되니 상대적으로 obj 값이 높은건지 궁금합니다 box: 0.05 # box loss gain cls: 0.3 # cls loss gain obj: 0.7 # obj loss gain (scale with pixels) 감사합니다
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
논문 및 모델 성능 지표에서 해석 관련 질문드립니다.
안녕하세요. 강사님 항상 좋은 강의 감사 드립니다. 다름이 아니라 강사님의 강의를 쭉 들으면서 논문 및 모델 사이트에서 성능 지표를 해석할 때 의문이 생겨서 질문드립니다. 만약 "어떤 모델 A의 ms는 30이라는 의미는 A 모델의 1 Frame에 대한 추론 속도가 30ms이다"가 맞는 해석인가요??
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
AutoML EfficientDet 모델 학습 후 Evaluation은 어떻게 진행하나요??
다른 모델 강의와 다르게 최종 Evaluation 과정이 나와있지 않아 질문드립니다. 테스트데이터도 TFRecord 형태로 변환한 뒤 tf2의 eval.py 혹은 efficientdet_keras_test.py 모듈을 사용하면 되는 것인지, AutoML EfficientDet 모델의 Evaluation 과정을 어떻게 진행하면 되는지 알고싶습니다.
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
MMdetection으로 학습한 모델 윈도우에서 사용 문의 및 기타 질문이 있습니다
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. 안녕하세요 드디어 Mask RCNN 까지 들었습니다 (중간에 남은게 있지만... ㅠㅠ) 선생님 덕분에 Detection의 전반과 훈련 inference까지 이해하게 되어 정말 감사드립니다 1. 저 같은 경우 서비스를 제공하는데 엔드유저가 윈도우를 사용하기 때문에 아무래도 윈도우에서 적용이 가능하게끔 만들고 싶습니다. 현재는 텐서플로 기반이라 Pyqt로 로컬프로그램을 만들어 제공하고 있는데 MMDetection이 리눅스에서만 적용되어서 로컬 프로그램으로는 한계가 있을까요? 이를테면 MMDetection이나 Detectron으로 만든 모델만 Pytorch로 불러온다든지 그런 사례가 있는지 궁금합니다 AWS로 웹서버를 구축하는 법도 있겠지만 보안문제도 있고 그쪽 지식은 부족해서 여쭈어 봅니다 2. 또한 Detection 모델은 여러가지 물체는 한번에 잡지만 visualization을 할때는 for 문을 쓸수밖에 없는 구조인가요? 만약 물체가 1000개씩 있으면 오히려 visualization이 병목이 될 수도 있을 것 같은데 제가 이해한 것이 맞는지 문의드립니다 멀티프로세싱 같은 것을 통해 잡아야 하는것인가요? 3. 마지막으로 강의에서는 MMdetection으로 faster rcnn이나 mask rcnn을 다뤄주셨는데 solo, yolact를 비롯한 다른 최신 모델들도 포함되어 있어서 좋은 것 같습니다 이런 최신 모델들도 cfg만 바꾸어 사용하면 되나요? yolact를 사용해봤는데 debuging을 해봐야겠지만 training 이후 여러 이미지 inference에서 문제가 있는거 같아 혹시 MMdetection이 faster rcnn, mask rcnn 계열에만 최적화 되어있는지 아님 다른 모델을 적용할 때 주의사항이 있는지 문의드립니다 항상 감사드립니다!!
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
안녕하세요.
안녕하세요. 저는 현재 a5000 gpu(ubuntu18.04) 에서 본 강의를 듣고 있습니다. 강의를 듣는데 코렙에서 모델을 사용하는데에 한계가 있고(강의에서 주신 추가코드를 돌리기 위함도 있고) 그래서 제 피시에 환경에서 강의를 듣고 있는데요. 다음과 같은 오류로 wandb 이후 과정이 해결되지 않고 있습니다. 아래의 코드를 작성하면 위의 사진과 같은 에러를 마주하게 되는데 어떻게 해결할 수 있을까요? %cd /content/DLCV_New/yolo %cd yolov3 !python train.py --img 640 --batch 16 --epochs 3 --data coco128.yaml --weights yolov3.pt --nosave --cache
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
Config 파라미터 설정 질문있습니다.
항상 좋은 강의 감사드립니다. 해당 강의에서 진행한 Config 파라미터 설정에 관해서 궁금한 점이 있어서 질문드립니다. Train_CFG Class 내의 hparams에 들어있는 'num_classes=20,moving_average_decay=0,mixed_precision=true' 해당 파라미터들을 hparams에 넣어주지 않고, 아래 예시와 같이 개별 파라미터로 설정한 뒤 params=dict에 넣어주고 override 시켜줘도 되는 것인가요?? ex. class TRAIN_CFG: num_classes = 20 moving_average_decay = 0 mixed_precision = true params = dict( num_classes=TRAIN_CFG.num_classes, moving_average_decay = TRAIN_CFG.moving_average_decay, mixed_precision=TRAIN_CFG.mixed_precision, ...) config.override(params, True) 만약 해당 방법도 가능하다면, hparams에 따로 개별 파라미터들을 넣어주어 Config를 설정해주는 이유가 무엇인지도 궁금합니다.
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
Yolo Data Format 좌표 값 정규화 관련 질문이 있습니다.
강사님 안녕하세요. 강의 잘 듣고 있는 학생입니다. 강사님의 설명을 들으며 학습 중 의문이 생겨서 질문드립니다. YOLO Format Data의 Annotation 형식이 0 0.475850 0.406530 0.414100 0.449400처럼 class id, center x 좌표, center y 좌표, width, height인 것은 이해가 되는데, center x, center y, width, height 좌푯값들을 왜 0~1 사이로 정규화해서 학습을 진행하는지 궁금합니다. 딥러닝 학습 방법론처럼 모델 네트워크에 0~1 사이의 값을 주어서 학습의 최적화를 위한 것인지 아니면 다른 이유가 있는 건지 궁금합니다. 항상 감사드립니다 :)
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
윈도우에서는 mmcv-full 다운로드가 힘든가요?
리눅스에서만 지원하나요? 윈도우에서 pip install mmcv-full 하니까 에러가 잔뜩납니다..
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
학습과 추론 질문
안녕하세요 강사님 강의 정말 잘 듣고 있습니다. 강의 중 궁금한 점이 생겨 질문 남깁니다. 38 x 38 에서 각 칸에서 4개의 바운딩 박스 19 x 19 에서 각 6개씩 10 x 10 에서 각 6개 5 x 5 에서 각 6개 3 x 3 에서 각 4개 1 x 1 에서 4개가 나와서 총 8732개의 바운딩 박스가 나온다는 것을 보고 알 수 있었습니다. 그 후에 NMS를 거친다고 나와있습니다. 학습 과정에서 매칭 전략이 IOU 0.5 이상이라고 되어 있는데, 8732개의 바운딩 박스를 NMS(IOU 0.5)를 거치고 나온 바운딩 박스들을 ground truth와의 IOU를 계산하여 0.5를 넘기지 않는 바운딩 박스들을 걸러서 학습시키는 것으로 이해를 했습니다. 일단 이 부분을 맞게 이해한 것인지 궁금하고, 학습과정이 아닌 inferencing과정에서 본다면 ground truth가 없으니 NMS과정만 거치고 나서 결과를 내뱉는 게 맞는 것인가요? 마지막으로 질문이 있는데 바운딩 박스들의 구성요소가 class들에 대한 소프트맥스 값 + x, y, w, h로 이루어지는데 좌표는 offset이라고 하셨는데 단위가 0~1사이라고 한다면, 다른 크기에서 뽑은 것인데 그냥 바로 8732개로 합쳐버린다면 이 박스가 38*38에서 온 것인지 10*10에서 온 것인지 모르는데 알맞은 비교나 inference시 원본 사이즈로 복구되는 원리가 궁금합니다.
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
Tensor 타입을 Numpy로 변환하는 이유가 궁금합니다.
모델 Inference 결과 중 value 값을 .numpy()를 통해 Numpy 형태로 변환해주는데, 그 이유가 Tensor 타입에는 shape나 dtype 정보가 함께 들어있어서 이를 제외한 순수 array값만을 가져오기 위해서인가요? 코드를 바꿔가며 비교해보면서 Numpy 형태로 바꾸면 값을 가져올 수 있다는 것은 알았지만, 왜 Tensor 타입은 안되는 것인지, Tensor와 Numpy의 차이는 무엇인지 등 본질적인 이유에 대해서 검색해봐도 명확하게 정리가 안되는 것 같아 질문드립니다ㅠㅠ
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
Mask R-CNN 관련
안녕하세요 강사님 항상 좋은강의 잘 듣고있습니다. 학습하던 도중 mask R-CNN 관련해서 질문드립니다. 1. Mask R-CNN 모델의 inference결과로 나오는 bbox의 좌표 results[0] 의 값이 [186.00633 203.48474 256.05243 253.83623 0.9983015] 위 5개 값중에 마지막 값은 confidence score 인것을 알겠는데 앞에 4개의 값이 각각 무엇을 뜻하는지 헷갈립니다 ㅠㅠ 처음부터 bbox의 xmin,ymin, width,height 라고 생각하는게 맞을까요? (Mask-RCNN 모델은 coco dataset format으로 학습) 2. segmentation이 진행되면 아래처럼 True , False 로 이루어진 array형태로 얻어지던데 object의 bbox정보와 segmentation정보를 매칭할 수 있는 방법이 있을까요? (최종적으로 각각의 바운딩박스 위에 class name이 아니라 픽셀 True 개수를 plot하는게 목표입니다.) 3. 영상 내에서 bbox를 추론은 하지만 시각화하지 않는 방법이 있을까요? (제가 사용하는 영상 데이터에 object들이 평균 3~400개가 detect 되어서 bounding box로 영상이 새까맣게 됩니다 ㅠㅠ ) 감사합니다.