묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
selectivesearch()의 size에 대해 질문 있습니다.
교수님 안녕하세요. 양질의 수업을 제공해주신 덕분에 열심히 공부를 하고 있습니다.다름이 아니라 selectivesearch() 함수의 반환 값 중 하나인 size와 selectivesearch() 함수의 파라미터 min_size의 차이점에 대해 여쭙고 싶습니다.제가 이해한 바로는 size는 bounding box 내에 존재하는 object들의 크기이며, min_size는 region proposal 시에 영역 내의 object의 최소값이라는 것입니다.따라서 a. 후보 bounding box들 중에서 object의 크기가 10000이 넘는 것들을 골라내는 방식과 b. 애초에 object의 크기가 10000이 넘는 bounding box만을 후보로 하는 방식의 결과값이 동일할 것이라고 생각했고, 아래의 두 코드의 결과값이 동일하게 나올 것이라고 판단했습니다.a 방식_, regions = selectivesearch.selective_search(img_rgb, scale=100, min_size=2000) cand_rects = [cand['rect'] for cand in regions if cand['size'] > 100000] red_rgb = (255, 0, 0) img_rgb_copy = img_rgb.copy() for rect in cand_rects: left = rect[0] top = rect[1] right = left + rect[2] bottom = top + rect[3] img_rgb_copy = cv2.rectangle(img_rgb_copy, (left, top), (right, bottom), color=red_rgb, thickness=2) plt.figure(figsize=(7, 7)) plt.imshow(img_rgb_copy) plt.show()b 방식_, regions = selectivesearch.selective_search(img_rgb, scale=100, min_size=10000) cand_rects = [cand['rect'] for cand in regions] red_rgb = (255, 0, 0) img_rgb_copy = img_rgb.copy() for rect in cand_rects: left = rect[0] top = rect[1] right = left + rect[2] bottom = top + rect[3] img_rgb_copy = cv2.rectangle(img_rgb_copy, (left, top), (right, bottom), color=red_rgb, thickness=2) plt.figure(figsize=(7, 7)) plt.imshow(img_rgb_copy) plt.show() 그러나 결과는 다음과 같이 서로 다른 결과 값을 보였습니다. a 방식b 방식제가 어떤 부분을 잘못 이해한건지, 혹은 어떠한 부분을 놓친건지 여쭙고 싶습니다. 감사합니다 :)
-
미해결차량 번호판 인식 프로젝트와 TensorFlow로 배우는 딥러닝 영상인식 올인원
오토인코더 sigmoid
오토인코더 예시에서 ReLu대신에 sigmoid를 사용하는 이유는 무엇인가요?
-
미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
AutoML EfficientDet Inference 수행 결과 분석 및 시각화 질문
config.nms_configs.score_thresh = 0.4 이렇게 설정했기 때문에 confidence score가 0.4 밑인 것을 걸러낸다고 하셨습니다. 제가 알고 있기로는 nms에서 threshold값을 0.4로 준다는 것은 confidence score을 내림차순으로 정렬하고 iou가 threshold 이상인 값을 삭제한다고 알고 있었습니다만 AutoML에서 말하는 confidence score는 다른 의미인가요?
-
미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
에어리얼 스페이싱? 이 뭔가요
Ratinanet의 FPN 강의를 듣고 있었습니다. 각 구간별 피처맵에서 UPSapleing하여 더해준 후 3X3 covolution 연산을 해준다고 들었는데 그 후 3X3 convolution 연산을 하는 이유가 에어리얼 스페이싱 때문이라는 거 같은데 이게 맞는건지 여쭙고 싶습니다.
-
미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
spp에서 궁금한점이 있습니다.
8*8 region proposal 영역이 아닌 8*9의 region proposal 영역이 있을 때 이를 정확히 4분면으로 나눌 수 없는데 이때는 패딩을 더하나요?
-
미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
confidence score의 정의에 대해
confidence score가 어떤 곳에서는 class score인지 object 인지 아닌지를 판단하는 object score인지 아니면 어떤 곳에서는 저 두개의 곱으로도 나타내더군요.혹시 정의에 대해서 확인해봐도 되겠습니까
-
미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
opencv Yolo v3 inference
안녕하세요. 권철민 강사님유익한 영상 잘 보고 있습니다. 현재 opencv로 Yolov3를 inference하는 파트를 보고 있습니다.nms threshold 값이 예를 들어nms_confidence = 0.4이면 한 상자당 confidence score가 가장 높은 상자를 뽑아 for문을 돌면서 iou 값이 nms_confidence이상이면 제거하는 데 쓰이는 것이 맞는지 확인하고 싶습니다. 그리고 85개의 차원중에 5번째에 있는 객체가 있는지 없는 지를 판단하는 confidence (detection[5])은 안쓰는 지 여쭙고 싶습니다. 본 코드에서는 class_score 부분만 if문에 조건으로 사용하여 의아한 기분이 들어 질문 드립니다.
-
미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
안녕하세요. 교수님.
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 강의 내용을 질문할 경우 몇분 몇초의 내용에 대한 것인지 반드시 기재 부탁드립니다. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. mmdetction에서 각 객체 별로 map를 도출하는 방법이 있을까요? 만약 도출하려면 어디서 수정을 어떻게 해야될까요...도움 부탁드립니다!!..
-
해결됨[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
개별 Json 어노테이션 파일 및 2개 이상의 라벨링 속성
안녕하세요. 강의 들으면서 이미지 디텍션에 깊은 이해를 하게 되었습니다.2가지 문의 드립니다.첫번째, 학습데이터를 입수했는데, PASCAL VOC와 같이 이미지별로 annotation이 존재하나, XML이 아닌 JSON 형식입니다. COCO 또는 YOLO 포맷으로 변환하고 싶습니다.이런 경우는 자바 프로그램등을 이용하여 JSON을 XML로 변환후, COCO나 YOLO로 변환해야 하는 방법을 사용하는지, 적정한 변환 방법이 궁금합니다. 두번째, 이미지의 라벨이 2가지 이상 일때는 어떻게 학습데이터를 구성해서 학습해야 하는지 궁금합니다.만약에 공작기계의 주요 부품과 상태를 진단한다고 할때,부품은 베어링부, 조인트부, 절삭부의 3가지가 있고,상태는 normal과 abnormal의 2가지고장상세는 깨어짐, 비틀림의 2가지 있다고 했을때,디텍션에서 조인트부-normal 또는 조인트부-abnormal-깨어짐, 이런식으로 디텍션을 할 수 있도록 학습시키려고 할때 어떻게 해야하는지 궁금합니다.감사합니다. 더운 여름 건강 유의하십시요.
-
미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
tf hub row_detection_boxes
현재 TF HUB의 SSD 모델 Inference를 수행중입니다.result의 키값 중 row_detection_boxes의 경우shape가 (1,1917,4)가 나옵니다.이 경우 SSD의 bounding box가 8700개정도로 나오는 걸로 알고있는데 그중에 1917개의 bounding box를 뽑아준건가요? 일단 시각화를 해보니 이렇게 나오긴 했습니다.
-
해결됨최신 딥러닝 기술 Vision Transformer 개념부터 Pytorch 구현까지
Multi-Head Attention 모델 구조에서 궁금한게 있습니다.
안녕하세요. 코드 공부하면서 궁금한 점이 생겨 질문남깁니다.앞선 이론 강의에서 이해한 바로는 MSA과정에서 Attention*value를 통해 [배치수, 헤드수, 패치수+1, Dh] 차원의 결과들이 나오고 Linear Projection을 통해 [배치수, 패치수+1, D] 차원의 결과가 얻어지는 것으로 이해했습니다.attention = torch.softmax(q @ k / self.scale, dim=-1) x = self.dropout(attention) @ v x = x.permute(0,2,1,3).reshape(batch_size, -1, self.latent_vec_dim)위와 같이 제공해주신 코드에는 이를 위한 Linear 과정이 따로 없는 것 같고 Attention*value 결과에 permute와 reshape를 해주었는데, 해당 과정이 이론에서 설명해주신 Linear 과정과 동일한 효과를 지니는 것일까요??
-
미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
논문 구현 조언 부탁드립니다.
안녕하십니까 강의를 듣다 조언을 좀 부탁드릴 수 있을까 싶어 연락드립니다.현재 2학년 재학중으로 컴퓨터비전 분야의 대학원을 생각하고 있습니다.대학원을 준비하면서 여러 공부를 해본 결과 논문을 구현해보기로 결심했습니다.그래서 강의 초반에 설명하시는 faster rcnn을 구현하고자 했지만 실패하고 말았습니다.혹시 구현하기에 난이도가 좀 더 낮은 모델을 추천해주실 수 있는지 글 남깁니다.이상입니다.
-
해결됨[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
SSD 끝단에 대해
혹시 Faster RCNN에서 RPN 네트워크 레이어가 어떻게 되어있는지 보여주셨던 것 처럼 SSD에서 각 크기별 feature map에서 head로 가는 레이어가 어떻게 합쳐지는지 어떻게 생겼는지 알 수 있을까요?
-
해결됨최신 딥러닝 기술 Vision Transformer 개념부터 Pytorch 구현까지
전처리 관련해서 질문이 있습니다
안녕하세요 강사님. 항상 좋은 강의 감사드립니다.데이터 전처리에 대해서 2가지 궁금점이 있어서 질문드립니다.RandomCrop 이나 Flip 같은 전처리는 데이터 증강을 위해서도 사용된다고 알고있는데 해당 전처리를 적용해주면 원본 데이터가 변경되는 것인지, 혹은 원본 데이터는 유지되고 전처리가 적용된 이미지가 추가되는 것인지 궁금합니다. 전자에 해당된다면 데이터 갯수의 증강을 목적으로 사용하기 위해선 원본 이미지데이터셋을 따로 저장해두고 전처리된 데이터셋과 합쳐줘야 될까요??RandomCrop에서 패딩을 넣어주는 이유가 정확하게 무엇인지 알고싶습니다.
-
해결됨[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
Oxford Dataset RCNN Inerence 질문
저는 mmdetection oxford Dataset의 품종에 대한 inference를 수행하였습니다.의문점이 너무 많이 겹치는 bounding box가 있다는 것입니다. 제가 첨부한 2번 4번 7번 사진의 경우 하나의 개사진에 매우 겹치는 2가지 bounding box가 있음을 알 수 있습니다. 제가 알기로는 RPN 네트워크에서 마지막에 NMS를 수행해 Confidence Score가 높은 순으로 정렬하고 Confidence Score가 가장 높은 bbox와 IOU가 큰 박스는 삭제하는 걸로 알고 있습니다만 제가 잘못 알고 있는 건지 여쭙고 싶습니다.
-
미해결[라즈베리파이] IoT 딥러닝 Computer Vision 실전 프로젝트
강의자료를 크리애플 홈페이지에서 찾을 수 없네요..
강의자료를 크리애플 홈페이지에서 찾을 수 없네요..강의자료를 받을 수 있는 곳을 상세히 설명해주세요..강의자료를 받을 수 있는 페이지 링크라도 달아주세요..IOT 라즈베리파이 관련 강의자료 부탁합니다..
-
해결됨최신 딥러닝 기술과 객체인식
프레임워크
최근에 파이토치를 기반으로 한 연구가 주를 이루고 있는데, 현업에서는 텐써플로우를 애용한다고 들었습니다. 혹시 이유가 따로 있을까요?
-
해결됨[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
Fast Rcnn에서 ROI Pooling 매핑하기
Selective search로 영역을 추출한 다음 Feature map에 대응시켜 매핑을 하는 걸로 이해를 했습니다.근데 의문이 원본 이미지에서 뽑은 seletive search와 feature map의 영역이 매핑이 제대로 되는지 여쭙고 싶습니다.
-
해결됨최신 딥러닝 기술 Vision Transformer 개념부터 Pytorch 구현까지
답변에 대한 추가질문이 있습니다.
답변 감사드립니다!강의를 통해 Head 수에 따라 다양한 영역에 대한 Attention 이 가능하다고 이해했습니다. 이에 따른 추가적인 궁금한 부분이 있습니다. (아래 질문은 배치 사이즈를 배제하고 질문드립니다.)Umsa를 통한 Linear Projection 이전의 shape는 (N x Dh x k) 이고, 이후의 shape는 (N x D)로 k가 사라져서 다양한 영역을 Attention 하고자 하는 의도가 사라지는 것 아닌지, 그렇다면 Umsa의 역할이 무엇인지 헷갈렸습니다. Umsa를 통한 Linear Projection을 진행한 후에도 다양한 영역을 Attention하고자 하는 Head의 특성이 반영되기에 상관이 없는건지 궁금합니다. Umsa도 무작위로 주어지고 학습을 통해 최적화되는 것이 맞을까요?
-
미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
Ultralytics Yolo v3 Onnx PostProcessing C++ 코드
안녕하세요.선생님,강의 잘 듣고 있습니다. 다름이 아니오라, 현업에서 Ultralytics yolo v3 Onnx를 이용해서 Post Processing을 해보려하는데요, c++ code 참고할만한 것이 있을까요? python은 많이 봤는데 c++은 제대로 동작되는 code찾기가 어렵네요.