묻고 답해요
130만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨최신 딥러닝 기술 Vision Transformer 개념부터 Pytorch 구현까지
Multi-Head Attention 모델 구조에서 궁금한게 있습니다.
안녕하세요. 코드 공부하면서 궁금한 점이 생겨 질문남깁니다.앞선 이론 강의에서 이해한 바로는 MSA과정에서 Attention*value를 통해 [배치수, 헤드수, 패치수+1, Dh] 차원의 결과들이 나오고 Linear Projection을 통해 [배치수, 패치수+1, D] 차원의 결과가 얻어지는 것으로 이해했습니다.attention = torch.softmax(q @ k / self.scale, dim=-1) x = self.dropout(attention) @ v x = x.permute(0,2,1,3).reshape(batch_size, -1, self.latent_vec_dim)위와 같이 제공해주신 코드에는 이를 위한 Linear 과정이 따로 없는 것 같고 Attention*value 결과에 permute와 reshape를 해주었는데, 해당 과정이 이론에서 설명해주신 Linear 과정과 동일한 효과를 지니는 것일까요??
-
미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
논문 구현 조언 부탁드립니다.
안녕하십니까 강의를 듣다 조언을 좀 부탁드릴 수 있을까 싶어 연락드립니다.현재 2학년 재학중으로 컴퓨터비전 분야의 대학원을 생각하고 있습니다.대학원을 준비하면서 여러 공부를 해본 결과 논문을 구현해보기로 결심했습니다.그래서 강의 초반에 설명하시는 faster rcnn을 구현하고자 했지만 실패하고 말았습니다.혹시 구현하기에 난이도가 좀 더 낮은 모델을 추천해주실 수 있는지 글 남깁니다.이상입니다.
-
해결됨[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
SSD 끝단에 대해
혹시 Faster RCNN에서 RPN 네트워크 레이어가 어떻게 되어있는지 보여주셨던 것 처럼 SSD에서 각 크기별 feature map에서 head로 가는 레이어가 어떻게 합쳐지는지 어떻게 생겼는지 알 수 있을까요?
-
해결됨최신 딥러닝 기술 Vision Transformer 개념부터 Pytorch 구현까지
전처리 관련해서 질문이 있습니다
안녕하세요 강사님. 항상 좋은 강의 감사드립니다.데이터 전처리에 대해서 2가지 궁금점이 있어서 질문드립니다.RandomCrop 이나 Flip 같은 전처리는 데이터 증강을 위해서도 사용된다고 알고있는데 해당 전처리를 적용해주면 원본 데이터가 변경되는 것인지, 혹은 원본 데이터는 유지되고 전처리가 적용된 이미지가 추가되는 것인지 궁금합니다. 전자에 해당된다면 데이터 갯수의 증강을 목적으로 사용하기 위해선 원본 이미지데이터셋을 따로 저장해두고 전처리된 데이터셋과 합쳐줘야 될까요??RandomCrop에서 패딩을 넣어주는 이유가 정확하게 무엇인지 알고싶습니다.
-
해결됨[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
Oxford Dataset RCNN Inerence 질문
저는 mmdetection oxford Dataset의 품종에 대한 inference를 수행하였습니다.의문점이 너무 많이 겹치는 bounding box가 있다는 것입니다. 제가 첨부한 2번 4번 7번 사진의 경우 하나의 개사진에 매우 겹치는 2가지 bounding box가 있음을 알 수 있습니다. 제가 알기로는 RPN 네트워크에서 마지막에 NMS를 수행해 Confidence Score가 높은 순으로 정렬하고 Confidence Score가 가장 높은 bbox와 IOU가 큰 박스는 삭제하는 걸로 알고 있습니다만 제가 잘못 알고 있는 건지 여쭙고 싶습니다.
-
미해결[라즈베리파이] IoT 딥러닝 Computer Vision 실전 프로젝트
강의자료를 크리애플 홈페이지에서 찾을 수 없네요..
강의자료를 크리애플 홈페이지에서 찾을 수 없네요..강의자료를 받을 수 있는 곳을 상세히 설명해주세요..강의자료를 받을 수 있는 페이지 링크라도 달아주세요..IOT 라즈베리파이 관련 강의자료 부탁합니다..
-
해결됨최신 딥러닝 기술과 객체인식
프레임워크
최근에 파이토치를 기반으로 한 연구가 주를 이루고 있는데, 현업에서는 텐써플로우를 애용한다고 들었습니다. 혹시 이유가 따로 있을까요?
-
해결됨[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
Fast Rcnn에서 ROI Pooling 매핑하기
Selective search로 영역을 추출한 다음 Feature map에 대응시켜 매핑을 하는 걸로 이해를 했습니다.근데 의문이 원본 이미지에서 뽑은 seletive search와 feature map의 영역이 매핑이 제대로 되는지 여쭙고 싶습니다.
-
해결됨최신 딥러닝 기술 Vision Transformer 개념부터 Pytorch 구현까지
답변에 대한 추가질문이 있습니다.
답변 감사드립니다!강의를 통해 Head 수에 따라 다양한 영역에 대한 Attention 이 가능하다고 이해했습니다. 이에 따른 추가적인 궁금한 부분이 있습니다. (아래 질문은 배치 사이즈를 배제하고 질문드립니다.)Umsa를 통한 Linear Projection 이전의 shape는 (N x Dh x k) 이고, 이후의 shape는 (N x D)로 k가 사라져서 다양한 영역을 Attention 하고자 하는 의도가 사라지는 것 아닌지, 그렇다면 Umsa의 역할이 무엇인지 헷갈렸습니다. Umsa를 통한 Linear Projection을 진행한 후에도 다양한 영역을 Attention하고자 하는 Head의 특성이 반영되기에 상관이 없는건지 궁금합니다. Umsa도 무작위로 주어지고 학습을 통해 최적화되는 것이 맞을까요?
-
미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
Ultralytics Yolo v3 Onnx PostProcessing C++ 코드
안녕하세요.선생님,강의 잘 듣고 있습니다. 다름이 아니오라, 현업에서 Ultralytics yolo v3 Onnx를 이용해서 Post Processing을 해보려하는데요, c++ code 참고할만한 것이 있을까요? python은 많이 봤는데 c++은 제대로 동작되는 code찾기가 어렵네요.
-
미해결차량 번호판 인식 프로젝트와 TensorFlow로 배우는 딥러닝 영상인식 올인원
CRAFT에 대해서 질문드립니다.
Karas CRAFT로 한글 문장을 학습할 때 학습이 제대로 진행이 될까요 ??
-
미해결차량 번호판 인식 프로젝트와 TensorFlow로 배우는 딥러닝 영상인식 올인원
Neural Style Transfer 강의자료 공유
Neural Style Transfer에 해당되는 강의자료 공유 부탁드립니다. 감사합니다. tae.park0302@gmaili.com
-
해결됨최신 딥러닝 기술 Vision Transformer 개념부터 Pytorch 구현까지
헷갈리는게 몇개 있습니다ㅠㅠ
안녕하세요 강사님.Transformer 에 대해 처음 공부해보니 헷갈리는 부분들이 있어서 질문남깁니다.1) k 개의 Multi-Head를 만든 후에 Linear를 해주는 이유가 따로 있는지 궁금합니다. 단순히 Residual Connection을 위해 차원을 맞춰주기 위해 하는 것인가요??2) Head의 개수(k)는 CNN에서 필터 개수처럼 사용자가 정해주는 파라미터인가요??3) 클래스 토큰까지 Positional Embedding을 더해줘야 하는 이유가 따로 있을까요??좋은 강의 덕분에 따라가긴 하는데 한 번에 이해하려하니 과부하가 와서 헷갈리는게 생기네요ㅠㅠ코드 분석 파트 들어가면 조금 더 이해가 될 것 같은데 우선적으로 질문남겨봅니다.
-
미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
안녕하세요! Mac OS관련 질문입니다.
저는 Mac OS로 강의를 시청하고 있어서 실습을 하는데 어려움을 겪고 있습니다.git bash를 설치하고 캐글과 연결하는 방법을 따로 알려주실 수 있나요.
-
미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
Anchor Box를 Reference 로 해야하는 이유가 궁금합니다!
안녕하세요 , 좋은 강의 감사드립니다바보 같은 질문일수도있으나 , Ground Truth Box 의 중심좌표값과 예측 BBO의 중심좌표값의 차이가 최소가 되도록 손실함수를 작성하지 않고 , Anchor Box를 Reference 로 해야하는 이유가 있을까요? 분명 제가 제대로 이해를 못한것같은데.. 조금 헷갈리네요..!
-
미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
0.3 이상이지만 Ground Truth가 아닌경우
안녕하세요! Svm classifier 를 통해 학습시킬떄 IOU가 0.3 이상이지만 Ground-Truth가 아닌 경우가 잘 이해가 되지 않아 질문을 남깁니다! IOU는 Group Truth와 Selective Search Predicted 영역간의 중복되는 사각형의 넓이로 이해하였는데 0.3 이상이지만 Ground-Truth가 아닌 경우가 어떤 경우가 있을까요!
-
미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
detect.py 오류
안녕하세요 박사님 덕분에 수업 너무 잘 듣고있습니다!다름이 아니라 제가 인턴때 환경에서 해볼려고 code를 돌리는 도중 C:\workspace\yolo_oxford\yolov3>python train.py --img 640 --batch 16 --epochs 30 --data C:/workspace/yolo_oxford/ox_pet/ox_pet.yaml --weights yolov3.pt \ --name pet --exist-ok이 과정에서 Traceback (most recent call last): File "C:\Users\ptj99\anaconda3\envs\ox_petyolo\lib\site-packages\requests\compat.py", line 11, in <module> import chardetModuleNotFoundError: No module named 'chardet'During handling of the above exception, another exception occurred:Traceback (most recent call last): File "C:\workspace\yolo_oxford\yolov3\train.py", line 43, in <module> import val as validate # for end-of-epoch mAP File "C:\workspace\yolo_oxford\yolov3\val.py", line 39, in <module> from models.common import DetectMultiBackend File "C:\workspace\yolo_oxford\yolov3\models\common.py", line 21, in <module> import requests File "C:\Users\ptj99\anaconda3\envs\ox_petyolo\lib\site-packages\requests\__init__.py", line 45, in <module> from .exceptions import RequestsDependencyWarning File "C:\Users\ptj99\anaconda3\envs\ox_petyolo\lib\site-packages\requests\exceptions.py", line 9, in <module> from .compat import JSONDecodeError as CompatJSONDecodeError File "C:\Users\ptj99\anaconda3\envs\ox_petyolo\lib\site-packages\requests\compat.py", line 13, in <module> import charset_normalizer as chardet File "C:\Users\ptj99\anaconda3\envs\ox_petyolo\lib\site-packages\charset_normalizer\__init__.py", line 23, in <module> from charset_normalizer.api import from_fp, from_path, from_bytes, normalize File "C:\Users\ptj99\anaconda3\envs\ox_petyolo\lib\site-packages\charset_normalizer\api.py", line 10, in <module> from charset_normalizer.md import mess_ratio File "charset_normalizer\md.py", line 5, in <module>ImportError: cannot import name 'COMMON_SAFE_ASCII_CHARACTERS' from 'charset_normalizer.constant' (C:\Users\ptj99\anaconda3\envs\ox_petyolo\lib\site-packages\charset_normalizer\constant.py)이러한 오류가 떳네요ㅜ 제가 궁금한건 여기서 import를 다 일일히 해야하는건가요? 제가 만든가상환경에서 yolov3에 requirements.txt를 pip 했는데도 이러한 문제가 생겨서요... 긴글 읽어주셔서 감사합니다
-
해결됨최신 딥러닝 기술 Vision Transformer 개념부터 Pytorch 구현까지
Positional Encoding, KQV 질문입니다!
안녕하세요!제가 여쭙고 싶은 질문이 2가지 있습니다. Positional Encoding은 이미지를 패치로 바꿔주었을 때 순서 유지를 목적으로 순서를 기억하는 용도로 이해를 하였는데, 코드에서 랜덤한 값으로 지정하여 이를 단순 더해줍니다. 단순 랜덤한 값을 더해주는 과정인데, 이게 왜 위치를 기억하는 positional encoding이 되는지 이해가 가지 않습니다.Key Query Value 관련해서 셋 모두 Linear Projection을 진행하는데, 같은 representation 하나에 대해서 세개 모두 단순 선형변환을 진행하면 같은 벡터가 나오지 않나 하는 의문이 들었습니다. 만약 그렇다면, 왜 같은 과정을 K Q V 세번이나 진행하는지, 만약 다르다면 nn.Linear를 진행할 경우 벡터 방향이 비슷하게 다른 벡터로 벡터공간에 주입이 되는지 궁금합니다.강의 너무너무 유익했습니다. 감사합니다!
-
미해결따라하면서 배우는 3D Human Pose Estimation과 실전 프로젝트
실습 2 - 코드 다운받고 Human3.6M 데이터셋 살펴보기 에서 질문이 있습니다.,
2강 1:50초에 나오는 data_2d_h36m_cpn_conf.npz와 data_2d_golfswing.npz 파일이 들어있는 datasets 폴더나 파일을 찾을수 가 없습니다.어디서 받아야 하나요?
-
미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
mmdetection/customdataset
안녕하세요 강사님 수업중 질문이 생겨서 글을 남깁니다.mmdetection github에 들어가서 customdataset을 확인하려고 하는데 따로 dataset에 customdataset이 없습니다 ㅠㅠ