월 24,200원
5개월 할부 시다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
class설정
강의에서 class설정 시, class_net만 제외하고 class개수가 2개라고만 지정했습니다 이때, 90개의 class중 어느 것을 detect해달라고 말 안해도 알아서 가장 많이 검출되는 두 가지만 나타내는 건가요? 즉, 90개중 알아서 car와 swimming pool을 검출하는 건가요?
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
yolo 관련
안녕하세요 선생님, yolo관련하여 궁금한 점이 있는데 물어볼 곳이 없어서 질문드립니다. qqwweee의 yolov3모델에서 처음 50에포크는 Classification 부분만, 다음 50에포크는 전체 Layer을 Unfreeze하여서 학습을 하였는데요, yolo에 자신감을 가져서 요즘 AlexyAB의 Darknet을 도전하고 있습니다. Darknet은 Classification만 Unfreeze하는 것으로 알고 있습니다. 혹시나 선생님께서 Darknet을 사용해 보셨다면, Darknet도 qqwweee의 전이학습방법과 같이 custom하게 전이 학습을 할 수 있는 것인지 여부에 대해 여쭈어보고싶습니다. 현재 성능의 관점에서 qqwweee의 yolov3과 Darknet yolov4 둘 중에서 어떤 모델을 택할지 고심하고 있습니다. 수업 외의 질문이라서 양해부탁드립니다.
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
detection 된 객체 구별하는 방법
교수님 안녕하세요! TensorFlow Object Detection API를 이용해서 Custom Dateset을 학습시켰습니다. 한가지 궁금한 점이 있어서 질문하게 되었습니다. 첨부된 사진에 현재 2개의 로봇이 detection 됩니다. 이 상태에서 각 로봇마다 id를 지정하고 싶은데, 좋은 방법이 떠오르지 않아 혹시나 아이디어가 있을까 해서요... id는 간단히 생각해서 로봇끼리 구별하기 위한 방법입니다! 항상 좋은강의 감사합니다.
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
object detection 질문 있습니다
현재 개구리를 detect하는 모델을 만들고 싶어 개구리 사진들을 학습시키는 중입니다 그런데 개구리가 없는 사진을 train set에 포함시킨다면 성능 향상에 도움이 될까요? 아니면 악영향을 끼칠까요? 예를 들어 개구리가 없는 두꺼비 사진을 학습데이터에 넣는다면(이 경우 bbox도 없습니다) 어떤 영향을 미치나요? 그냥 train되는 시간만 늘어나나요? 아니면 noise가 되어 모델의 성능을 떨어트리나요?
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
oxford_pet CustomDataset에서 load_annotation filename에서 질문이 있습니다
안녕하세요 선생님 저는 MMDetection 실습을 개인 PC에서 하고 있었는데, oxford_dataset 빌드 이후에 훈련을 하는데, 오류가 나서 디버깅을 해보니 선생님 코드에는 kitty 때와 다르게 `filename` 속성에서 아래와 같이 넣어주셨는데 https://github.com/chulminkw/DLCV_New/blob/main/faster_rcnn/mm_faster_rcnn_train_oxford_pet.ipynb 이는 코랩에서 수행 시에는 잘되는건가요? filename = '{0:}/{1:}.jpg'.format(self.img_prefix, image_id) 저는 PC에서 하는지 그런지 kitty 처럼 아래처럼 이미지 이름만 넣어줘서 되어가지고요 data_info = {'filename': str(image_id) + '.jpg', 감사합니다
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
mmdetection pipeline에서의 resize scale에 대해서 질문이 있습니다
안녕하세요 'Config의 이해 Data Pipeline` 강의에서 질문이 있습니다 데이터 파이프라인에서 resize의 img_scale로 모든 이미지를 resize 한다는 것인가요? 굉장히 큰 사이즈로 reshape를 하길래, 혹시나 해서 궁금해서요 그리고 keep_ratio를 유지하면 남은 여백에 대해서는 검은색으로 padding을 한다는 것인가요? + 추가로 아래와 같은 pipeline을 봤는데 ,이때는 img_scale이 2가지가 있는데, 그럼 이때는 두 사이즈로 모두 rescale 되어서 하나의 이미지가 2개의 image로 augmentation 개념으로 변형되어서 입력으로 들어가는 형태인거죠? train_pipeline = [ dict(type='LoadImageFromFile'), dict(type='LoadAnnotations', with_bbox=True), dict(type='Concat', template_path=data_root + 'template_Images/'), dict( type='Resize', img_scale=[(3400, 300), (3400, 500)], multiscale_mode='range', keep_ratio=True), dict(type='RandomFlip', flip_ratio=0.5), dict(type='Normalize', **img_norm_cfg), dict(type='Pad', size_divisor=32), dict(type='DefaultFormatBundle'), dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels']), ]
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
MMDetection의 이해와 Faster RCNN 적용 실습 에서 No module named 'mmdet.datasetsasets'
안녕하십니까! 수업 감사히 잘 듣고 있습니다. * PC로 학습을 진행하고 있습니다. 환경은 아래와 같습니다. - GPU : GeForce GTX 105... (nvidia-smi) - cuda_11.0.3_450.51.06_linux.run 설치 - cudnn cudnn-11.0-linux-x64-v8.0.5.39.tgz 설치 - Anaconda : Anaconda3-2019.10-Linux-x86_64.sh 설치 - ananconda 가상환경 구성 - jupyter notebook 설치, 환경 설정 - 가상환경 activate -> jupyter multi kernel 설치 - pytorch 설치 : pip install torch==1.7.1+cu110 torchvision==0.8.2+cu110 torchaudio==0.7.2 -f https://download.pytorch.org/whl/torch_stable.html - pip install mmcv-full - git clone https://github.com/open-mmlab/mmdetection.git - cd mmdetection; python setup.py install => faster-rcnn의 학습(train)을 수행하고 예측(inferencd)을 잘 구현하였습니다. 그리고 mask-rcnn을 학습(수강)하였습니다. (새로운 가상환경 생성 후 학습) => mask-rcnn을 학습하고 와서 faster-rcnn의 소스를 정리하기 위해 잘 작동하던 소스를 실행 시키보니 아래와 같은 오류가 발생하였습니다. ======================================================================= --------------------------------------------------------------------------- ModuleNotFoundError Traceback (most recent call last) /tmp/ipykernel_1654/2266340391.py in <module> 6 import numpy as np 7 ----> 8 from mmdet.datasetsasets.builder import DATASETS 9 from mmdet.datasets.custom import CustomDataset 10 ModuleNotFoundError: No module named 'mmdet.datasetsasets' ======================================================================= - pip install mmcv-full 과 python setup.py install 을 다시 실행해도 안되네요. - 그리고 새로운 가상환경을 구축하고 이전과 동일하게 환경 잡고 해봐도 동일한 오류가 발생합니다. 답변 부탁드립니다.
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
SSD의 이해02 에서 Multi Scale Feature Map의 detection에 대한 질문
Multi Scale Feature Layer를 설명하시며 피쳐 맵이 작을수록 큰 object들에 대한 detection이 가능하고 피처 맵이 클 수록 작은 object들에 대한 detection이 가능하다고 하셨습니다. 위에 말에서 왜 그러한지에 대해서 이해가 가질 않아서 추가 설명을 부탁드리고 싶습니다. 강의 내용을 이해하기로는 작은 피처맵일수록 이미지의 핵심적인 특징을 가진다고 하신부분과 연관 되는 것 같습니다. 제가 이해가 안되는 부분은 이미지의 핵심적인 특징들을 작은 피처맵들이 갖는다고 해서 detection할 때는 어떻게, 왜 더 큰 object들을 detection이 가능한지 이해가 가지 않습니다. 머리속으로 이해가 가기를 아직 conv층을 많이 안거쳐서 더 큰 피처맵일수록 피처맵 크기가 크기때문에 더 큰 object들을 detection할 것 같은데 conv층을 더 많이 거쳐서 더 구체적인 정보를 가진 작은 피처맵일수록 더 큰 object들을 detection할 수 있다고 하셔서 어떻게 그럴 수 있는지 혼동이 됩니다. 그리고 부가적으로 계속 SSD의 이해 03의 수업을 들으며 앞에 질문 내용과 연관이 되어 덧붙여 질문하여 봅니다. 위의 그림에서 강아지를 detect하기 위해서 4x4 feature map에서, 즉 더 작은 feature map에서 더 큰 object를 detect할 수 있었습니다. 이는 말씀해주신 강의 내용과 일맥상통하는데요, 저에게 이해가 안가는 것은 이는 단순히 (a)의 이미지 사진을 4x4로 나누어서 anchor box를 통해 object를 detect 한 것이지, 여러번의 conv층을 거쳐서 나온 4x4의 feature map에서 anchor box를 통해 object를 detect한 것이 아닌 것 같아서 어떻게 두 과정이 같을 수 있는지 잘 이해가 가질 않습니다.. 왜냐하면 제가 이해하기로 4x4의 feature map은 8x8 feature map보다 더욱 두터운 channel를 가지면서 이미지의 더욱 세밀한 특징들을 추출해낸 feature map이라고 생각하기 때문입니다.
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
tiny kitty 예제에서 dataset 질문이 있습니다
안녕하세요 tiny kitty 예제에서 dataset 만들고 빌드하면 datasets 변수가 나왔었는데, 리스트 형태로 반환되었습니다 그래서 model.CLASSES = datasets[0].CLASSES 이런 코드가 있는데 여러 형태로 반환되는 경우도 있다는 것으로 추측되는데, 이 부분에 대해서 혹시 아시나요?
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
readNetFromXXX 인자에 대해서
Dnn 패키지는 파일로 생성된 타 프레임웍 모델을 로딩할 수 있도록 readNetFromXXX(가중치 모델파일, 환경파일) API 제공한다고 하셨습니다. 이때 각각의 인자에 대해서 설명을 듣고 싶은데요, Q1. 가중치 모델파일(weights)는 pretrained된 DNN 모델을 말씀하시는 것이 맞나요? Q2. 환경파일(config)는 weight모델을 opencv에서 해석해서 돌릴 수 있도록 가이드적이 역할을 하는 것이라 하셨습니다. 해당 config는 무엇으로 구성되어 있나요? 내부에 어떠한 것으로 구성이 되어 있고 어떻게 모델의 가이드적인 역할을 하는 것인지 궁금합니다. 처음에는 모델의 하이퍼파라미터 묶음 같은 것이라 생각하였는데 weights 자체에 적용이 되어 있을 것 같아서 config가 무엇인지 모르겠습니다.
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
해당 강의까지 듣고 Faster RCNN에 anchor box에 대한 내용 이해점검과 질문
< 강의를 이해한 내용 > anchor box는 3가지의 사각형 형태, 3가지의 다른 크기로 이루어져 있다. 즉, anchor box는 9개의 다양한 사각형을 이용하여 이미지의 해당 부분의 obj 존재여부를 판단해내는 것이다. anchor box는 원본 이미지에 적용되는 것이 아니라 Feature Map에 적용되는 것이다. Feature Map에 가로 x 세로의 수만큼 anchor box가 생기게 된다. 여기서 anchor box는 총 9가지의 box로 이루어져 있으므로 9개의 depth(차원)이 적용되어 총 생기는 anchor box는 가로 x 세로 x 차원(9) 인 것이다. anchor box는 Feature Map에 생기게 되는데, 학습을 위해 3x3 conv 층을 통과하고, 빠른 학습과 정보 압축을 위해서 1x1 conv 층을 통과한다. 이때 9개의 차원으로 압축되게 되는데, 9개로 압축되는 이유는 anchor box가 3가지의 형태와 3가지의 크기로 총 9개의 box로 이루어져 있기 때문이다. 1x1 conv층을 통해 압축까지 된 Feature Map에 anchor box를 그리게 되면 (가로 x 세로 x 차원)의 수만큼 anchor box가 나오게 되는 것이다. 질문 - 마치 conv층의 필터를 정의하듯, anchor box의 각 box별 모양과 크기를 정해주어야 할텐데 anchor box의 정의는 어느 부분에서 하나요? - Feature Map의 각 9개의 차원별로 각 box가 적용되는 것이 아니라 각 차원별로 모두 9개 다양한 크기의 box가 적용되는 것이 맞나요? - 만약 그렇다면 굳이 압축 차원이 9개여야 할 필요가 있을까요? 1x1 conv층에서 9개의 차원과 anchor box 구성의 box수는 무관한 것으로 느껴집니다.
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
마지막 섹션강좌 Tensorflow Object Detection API model config 파일 질문입니다.
Tensorflow Object Detection API를 공부하고 있습니다. model config 파일에서 eval_input_reader가 하는 역할이 훈련 중 검증을 위한 validation 데이터 경로 및 labelmap을 지정을 해주는건가요? 보통 훈련할 때 Train와 validation과정을 거치면서 훈련을 한다고 알고 있는데, validation을 하는 작업 코드와 결과(ex, 1000step마다)를 볼 수가 없어서 잘 모르겠습니다.
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
8:35 classification Loss
8:35에나오는 classification Loss 계산방식에 대해서 이해가 가지 않아 질문 올립니다. 1-0.5의 의미를 알고 싶습니다
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
4:20에 대한 질문입니다.
20+1+4 에 대해서 상세하게 알고 싶어서 질문 올립니다. 백 그라운드에 대해서 잘 모릅니다 ㅠ 그래서 +1이 왜 되는지 와 4에 대해서는 저평가? 라고만 들리는데, 이에 대해서 다시 한번 말씀해주시면 감사하겠습니다.
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
SPP Net 문의
Spatial Pyramid Pooling 까지만 강의가 있고 그 뒤에 SPP-NET 강의가 없는것 같습니다.
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
SPPNet 질문입니다.
강의 잘보고 있습니다. 원본 이미지에서 selective search를 진행해서 최대 2000개의 region proposal을 받고 conv를 통한 feature맵에 매핑한다고 이해를 했습니다. 그런데 원본 이미지에서 conv를 지나쳐오면서 w와 h와 완전히 줄어드는데 아무리 배율을 유지하고 2000개를 proposal했을 때 feature map 사이즈가 아무리 작아도 45 * 45는 되어야 하는데 맞는 건가요? 그리고 각 selective search로 나온 region proposal된 각각의 최대2000개 object가 마지막의 각각 svm과 regression을 통과하는 수를 합쳐서 최대 2000회가 맞나요? 마지막으로 강의 리뉴얼된 거로 새로 업로드하신다고 하셨는데 이론 부분까지도 리뉴얼이 완성된 건가요? 질문이 너무 많아 번거롭게 해드리는 거 같네요 ....ㅎㅎ
- 해결됨[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
confidence threshold에 관한 질문
안녕하세요. 이전 강의인 NMS에서도 궁금했는데, confidence 임계값이 어떻게 결정되는지 궁금합니다. IOU 같은 경우는 식으로 설명해주셔서 이해가 가는데, confidence 임계값인 경우에는 그런 것이 없더라구요. 좋은 강의 항상 잘 듣고있습니다. 감사합니다.
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
detection 할 class 관해 질문이 있습니다.
안녕하세요! 강사님의 강의를 잘 듣고 있습니다. 존윅 비디오에서 detection을 할때 tie 를 보면 0.9정도의 score를 통해 탐지가 되는 것을 볼수 있는데, 만약에 person, car 같은 특정한 class만 detection 할수 있는 방법이 있을까요?labels_to_names_seq 의 클래스 매핑에서 제외해버리면 되는 것이가요??
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
confidence score
ppt 19p, object localization 예측 결과에서 confidence score의 합은 1이 아닌가요?
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
앵커박스 질문 드립니다.
19:35분에 말씀하시기를 원본이미지에서 17100개의 앵커박스가 생긴다고 하셨는데요 뒤에 더 설명을 들어보니까 제가 이해한걸로는 원본이미지에서 바로 앵커박스로 뽑은 것들을 RPN으로 들어가는 걸로 연결이 되는데 그게 아니라 FM에서 17100개의 앵커박스가 RPN 입력으로 들어가는거죠?