월 24,200원
5개월 할부 시다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 해결됨[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
YOLO-V3 모델에서 Feature Map과 이미지 사이즈 관계 질문입니다.
YOLO-V3 모델 설명하실 때 위 사진자료를 토대도 "상대적으로 큰 사이즈의 이미지의 같은 경우 (13, 13) 그리드를 적용한 Feature Map에서 잘 Detection을 하고 작은 사이즈의 이미지는 반대로 (52, 52) 그리드를 적용한 Feature Map에서 잘 Detection 한다" 라고 하셨습니다! 이 때, 이미지 사이즈가 클 때 잘 탐지하고 작을 때 잘 탐지하는 기준이 Feature Map에 따라 다른 건가요? 아니면 그리드 사이즈에 따라 다른건가요? 예를 들어, 위 예시에서 (52, 52) 그리드이기 때문에 작은 사이즈의 이미지를 잘 탐지하는 건가요? 아니면 (52, 52) 그리드에 매핑되는 Feature Map이 모델 아키텍처에서 후반부 컨볼루션을 통과한 후 나온 Feature Map이라서 그런건가요? 제가 저번에 배우기론.. 모델에서 후반부 컨볼루션을 통과한 Feature Map일수록 이미지 내에서 주요 오브젝트를 나타내는 특징 픽셀들만이 남는다고 알고 있는데 이 사실은 이미지 내부의 문제이지 이미지 자체 사이즈랑은 관련이 없는 거죠..?
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
keras-yolo 모델 학습관련 질문
안녕하세요 선생님 먼저 좋은 강의 정말 감사합니다. 저는 [yolo raccoon custom 강의]를 보고 keras-yolo에 제 데이터에 custom하는 작업을 진행 중인데요. 문제는 제 데이터 양 때문인지 한 1epoch 당 3시간 정도가 걸립니다. 저는 aws 를 사용하고 있는데 이게 오래 학습을 시키면 저절로 서버다운이 되고... 중간에 학습모델 저장이 쉽지가 않습니다. 그래서 2epoch씩 학습시키고 저장하고 -> 저장된 모델을 로드해서 다시 2epoch 학습하고 이런 방식으로 노동을 하고자 하는데 그 방법을 여쭈어보고 싶습니다. 여기서 저장된 모델 이름은 trained_weight_stage_1.h5 입니다. fine-tune은 할 엄두도 못내고 있구요... 1. 2epoch 학습한 trained_weight_stage_1.h5 를 yolo.h5 자리에 넣고 학습시키면 되는 걸까요? 2. 어느정도 학습한 모델을 이어서 그다음 코드인 fine-tune 단계만 진행하려면 어떻게 해야할까요?
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
keras 모델 평가할 때 evaluate, predict의 차이를 알고 싶습니다
안녕하세요 둘 모두 테스트 배치를 넣어서 결과를 받아오는데 무슨 차이가 있나요?
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
안녕하세요 ~! 강사님 질문 있습니다 ~!
안녕하세요 ~! 최근에 강의를 완강을 하고, 시간될 때, 천천히 다시 강의를 들어 보려고 합니다 ~! 처음 완강했을 때는 구글의 클라우드 플렛폼으로 학습을 해서 별다른 문제 없이 완강을 했습니다. 다시 강의들을때는 GTX1070TI 8GB의 그래픽 카드를 구매 후 공부를 하려하는데 혹시, GTX1070TI 8GB로는 충분한지 궁금합니다. 추가적으로 혹시 책은 언제쯤 출시 될까용 .. ?
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
로컬 설치시 pip list 공유부탁드립니다,
opencv ssd와 tensorflow ssd를 로컬 데스크탑에서 실행하려고 할때 자꾸 에러가 발생합니다. stackoverflow를 뒤져보니까 opencv 또는 tensorflow의 버전문제라고들 하네요. 혹시 로컬실행할때의 pip list(설치목록)을 공유해 주실수 있으실까요? 버전을 확인해서 동일하게 설치해서 실행해볼려고 합니다. 감사합니다
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
컴퓨터를 잘 못해서 그러는데,
혹시 이 강의를 이해하려면 파이썬이나 텐서플로우를 기본적으로 알고 있어야 하나요? C, C++만 배워봐서 약간 혼란스럽네요...
- 해결됨[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
SSD 모델 입력 사이즈 고정과 SSD Loss 질문입니다!
안녕하세요! 질 좋은 강의에 감사 인사 드립니다! SSD 모델 강의에서 SSD 모델은 300 또는 512 사이즈의 이미지만 입력으로 받을 수 있다고 하셨는데요! 1. 그렇다면 300 by 512 또는 512 or 300 사이즈의 이미지는 입력이 불가한가요? 무조건 이미지 가로, 세로 길이가 동일해야 할까요? 2. 그렇다면 300~512 범위 사이의 이미지, 예를 들면 350 by 350 또는 400 by 400 처럼 이런 사이즈의 이미지는 입력이 안되는 건가요? 3. 이건 개별 질문인데요! SSD Loss 식을 강의에서 소개해주셨는데요! SSD Loss 수식에 매칭된 디폴트 박스의 개수인 N값이 있는 것으로 보아 한 종류의 Feature Map마다 SSD Loss 수식이 사용된다고 보면 될까요? 예를 들어, 8 by 8 Feature Map에 SSD Loss를 사용해 학습 1번, 4 by 4 Feature Map에 SSD Loss를 사용해 학습 1번.. 이런식으로요!? 답변 해주시면 너무나 감사하겠습니다 :)
- 해결됨[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
RPN Loss함수에서 t,t*값과 Alternating Training 질문입니다!
안녕하세요! 공부하다가 이해가 잘 안되는 부분이 있어서 질문 남깁니다! 1.RPN Loss함수에서 t, t*값에 대한 설명이 각각 Anchor Box에 대한 예측, 실제좌표라고 하셨습니다. 이 때 '실제좌표'라 함은 RPN 과정에서 새겨진 칸 당 9개의 Anchor Box들의 실제 좌표를 의미하는건가요? Ground Truth의 실제좌표는 아닌거죠? 그렇다고 하면 처음에 Anchor Box 9개를 각각 만들 때, 9개 박스에 대한 좌표값들은 얻지 못하기 때문에 위와 같이 t, t*값을 이용해서 Anchor Box 좌표값을 초기화(t값)시킨다음 처음에 만들었다고 한 9개의 Anchor Box 좌표의 실제값(t*값)에 근접하도록 학습시킨다는 말인가요? (결국, t와 t*에 대해 loss함수를 수행할 때 Ground Truth의 실제 좌표값은 관여하지 않게 되나요?) 2. Alternating Training에서 Fine Tuning이라는 것이 구체적으로 어떻게 동작하는 건가요? 예를 들면...현재 갖고 있는 모든 이미지 데이터셋으로 Feature Extractor가 먼저 RPN을 통해 파라미터가 학습되고 Fast RCNN을 학습시키면서 파라미터가 변경됩니다. 그 이후에 새로운 이미지가 들어와서 학습하게 되면 RPN에서는 1 by 1 컨볼루션 layer를, Fast RCNN에서는 FC layer를 Fine tuning한다는 의미로 이해를 했는데.. 구체적으로 어떻게 파라미터 값이 fine tuning되는건지 궁금합니다! 또 다른 역전파를 통해서 구현된다던지..? 답변 부탁드리겠습니다! 감사합니다!
- 해결됨[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
RPN 내부 과정이 어떻게 전개가 되는지에 대한 질문입니다!
안녕하세요! RPN이 전개되는 과정에 있어서 이해가 안되서 질문드립니다.. 우선 제가 이해한 선에서 RPN 내부 과정을 순차적으로 말씀드리면 다음과 같습니다. 1. 원본이미지를 VGG와 같은 Feature Extractor를 통과시켜 서로 다른 사이즈인 여러개의 피처 맵이 추출 -> 2. 각 피처 맵에 대해서 3 by 3 컨볼루션을 수행하는데, 이 때 3 by 3 컨볼루션의 한 칸 당 9개의 Anchor Box들이 새겨져 있음 -> 3. 3 by 3 컨볼루션을 수행한 후 Feature Map들 사이즈는 더 줄어듦(여전히 Feature Map의 한 칸 당 9개의 Anchor Box들이 새겨져 있음) -> 4. 갑자기 1 by 1 컨볼루션을 수행해서 이진 분류는 2 by 9 아웃풋, 회귀는 4 by 9 아웃풋..? 그리고 이진분류, 회귀..? 이 부분이 이해가 가질 않습니다.. 1 by 1 컨볼루션을 수행하는 이유가 서로 다른 Feature Map들의 사이즈를 통일시켜주기 위함은 알고 있습니다. 그런데 왜 아웃풋이 위와 같이 되는지(2는 백그라운드다 아니다, 4는 박스 4개의 좌표인 것은 압니다.. 그런데 왜 갑자기 1 by 1 컨볼루션만을 수행했는데 아웃풋이 2랑 4가 나오는지 모르겠습니다..), 또 여러개의 Anchor Box들과 Ground Truth 박스와 비교하는 분류, 회귀 문제를 어디 단계에서 수행해야 하는지 모르겠습니다.. 너무 헷갈리네용..
- 해결됨[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
안녕하십니까 Retinanet에 대한 전반적인 이해를 질문하고자 합니다.
안녕하십니까, 현재 RetinaNet을 구현해보고자 Retitanet paper를 읽고 케라스 공식홈페이지의 Retinanet 예시 코드(https://keras.io/examples/vision/retinanet/#implementing-smooth-l1-loss-and-focal-loss-as-keras-custom-losses) 를 이해하고자 하는데 제가 전반적인 흐름을 이해하질 못하고 있습니다. 본 강의에 있는 Fast RCNN 파트에서, 예측 박스가 Ground Truth 좌표값을 따라가는 것이 아닌 Anchor Box 중에서 Ground Truth와 IOU 높은 Positive Anchor Box를 따라간다고 하였습니다. 그렇다면 1. RetinaNet이 작동하기 전 과정이, 우서적으로 Anchor box들 생성하고 그 중에서 Ground Truth와의 IoU>= 0.5인 Positive Anchor Box 찾기 가 맞는지요. 2. 그리고 RetinaNet 구조를 보면 FPN 에서 나온 P3 ~ P7(Retinanet paper 기준) feature map을 class subnet과 box subnet으로 각각 들어가게 되고, 위 케라스 공식 홈페이지 예제 코드 이때, box subnet의 결과값이 W x H x (4 x 9) 꼴인데, Positive Anchor Box의 좌표는 (x, y, w, h)로 4개인데 어떻게 regression 계산이 되는지 궁금합니다. class subnet에 들어가게 되면 W x H x (num_classes x 9) 꼴의 결과값이 나오는데, 이는 2번질문과 마찬가지로 class labeling은 0,1,2,...과같은 정수형이거나 벡터형으로 나타날텐데 어떻게 regression 계산이 되는지 궁금합니다. 3. 또한, Positive Anchor Box를 제외한 나머지 Anchor Box들은 결국에는 직접적인 학습에 사용되지 않는 것인지요? 만약 사용된다면 Negative Anchor Box(IoU < 0.4)와 Ignorance Anchor Box(0.4 <= IoU < 0.5)가 어떤식으로 사용되는 지에 대해 설명 부탁드립니다. 4. 또한, 한 이미지에 서로 다른 객체가 2개 이상일 때, feature map이 class subnet에 들어가서 도출된 결과값( (num_classes) X 9)이 어떤 방식으로 해당 객체의 레이블과 대응하여 학습되는지 궁금합니다. 예를 들어, 사과(0), 고양이(1), 강아지(3) 클래스가 3개인 데이터셋에서, 사과(0)와 고양이(1)가 존재하는 특정 이미지를 RetinaNet에 training시키게 되면, P3 ~ P7의 feature map이 class subnet으로 들어가서 W x H x (3 x 9)꼴의 결괏값이 나올텐데, 이때 해당 결괏값이 사과(0)인지, 고양이(1)인지 어떤 값이 대응하여 학습해야할 지에 대해서 알 수가 없어 이렇게 질문드립니다. 대략적인 이론을 알고 있다고 생각하여 직접 코딩을 하려했지만, 막막하여 keras 예제를 통해 역으로 이론을 이해하려 시도했습니다. 하지만 코드 자체가 이해가 되질 않고, 어떤 식으로 데이터가 흘러가지는에 대해서도 파악할 수가 없었습니다.. 혼자서 해결해보려 했으나 며칠동안 해결되지 않고 오히려 이해가 되지 않는 부분이 많아져서 이렇게나마 질문을 드립니다...
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
colab에서 gpu를 런타임 초기화를 하지 않고 잠깐 내렸다 올렸다 할 수 있는 코드가 있나요?
안녕하세요 코랩에서 실습하는데, GPU가 꼬였는지 한 번 수행하고 난 이후에 생기는 문제입니다 !nvidia-smi 명령으로 보면 GPU가 잡혀있는데, PID가 나와있지 않아서 종료를 못하는데 메모리를 해제하고 다시 하고 싶은데, 런타임을 종료하면 다시 전처리부터 다시 해야되어서 혹시 없을까요?
- 해결됨[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
RCNN에서 여러개의 Region Proposal 들 사이즈 통일 관해 질문입니다!
안녕하세요! 다름이 아니라 RCNN 의 Stage1에서 수행되는 Region Proposal에 관한 질문인데요! Stage1에서 약 2000개의 Region Proposal 들이 수행되는데 이것들이 Stage2의 Feature Extractor로 들어가 각 Region Proposal의 특징들을 추출해 Feature map을 완성시키잖아요!? 이 때 강의에서 선생님께서 설명해주셨다시피 Feature Extractor에 따라 Region Proposal의 각기 다른 사이즈를 하나로(강의에서는 아마 257 by 257 이였나.. 그랬을 겁니다..!) 통일 시켜주어야 한다고 하셨잖아요!? 그렇다면 이 Region Proposal들의 사이즈를 통일시켜주는 것은 Feature Extractor가 무슨 종류인지에 따라 달라지는 거겠죠? 제가 Alex net일 때 들어가야 하는 사이즈가 몇이고 VGG일 때는 몇이고 또 다른 CNN모델들은 몇 사이즈여야 한다는 것을 잘 몰라서요! 만약 서로 다르다면 어느정도 통일시켜주는 사이즈 범위가 있을까요? 예를 들어 250~300 사이로 한다던가... 답변 부탁드리곘습니다! 질 좋은 강의에 감사인사드립니다 :)
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
Seletive Search 실습 및 시각화 세팅 중 오류
강사님 안녕하세요! 질문이 있습니다. Colab으로 실행하고 텐서플로 1.15.2, 케라스 2.3버전을 설치했구요 git clone해서 DLCV 폴더도 가져왔고, seletivesearch 실습을 실행하는데, 오류가 발생합니다. 이 부분을 어떻게 해결해야하는지 문의드립니다
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
Ai 비전 오픈소스 관련 질문사항
안녕하세요! 저는 Ai 비전을 비즈니스에 활용하기 위해서 강의를 듣고 있습니다. Ai 학습을 위해서 비즈니스 정보가 담긴 데이터들을 넣고 학습을 하게 될텐데요... 혹시...ai 비전 관련 오픈소스를 사용할때 제가 사용하는 학습 데이터들에 대한 정보가 외부로 유출될 가능성은 없는지...그 점이 궁금합니다...
- 해결됨[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
AP, mAP의 차이점과 Ground Truth Bounding Box 질문입니다!
안녕하세요! 선생님, 예전 머신러닝 강의도 들어왔는데 이번 컴퓨터 비전 강의도 듣게 된 애청자 입니다! 다름이 아니라 질문이 있는데요! 1. AP와 mAP의 차이점에 대해 언급해주실 때 AP는 하나의 오브젝트에 대한 Precision 평균값이고 mAP는 여러 오브젝트에 대한 Precision 평균값들의 '평균값'이라고 설명해주셨는데요! 그렇다면 예를 들어 어떤 이미지에 자동차, 사람, 강아지 이렇게 3개의 오브젝트들이 있을 때 자동차에 대한 AP 따로, 사람에 대한 AP 따로, 강아지에 대한 AP 따로 계산을 하고 이 3가지를 평균값을 낸 걸로 이해하면 맞을까요? 2. 이전 강의에서 Bounding Box를 찾는 게 Regression 문제라고 하셨잖아요!? 그렇다면 어쨋거나 Ground Truth Bounding Box 좌표가 주어진 상태에서 뉴럴 넷이 Regression을 하는 지도학습이라고 볼 수 있는 거죠? 만약 지도학습이라고 한다면 각 이미지 마다 Ground Truth Bounding Box 좌표들은 사람이 직접 레이블링 해주어야 하는 건가요? 뉴럴넷이 알아서 Ground Truth Bounding Box를 찾아서 그 좌표로 수렴할 순 없지 않나요? 뉴럴넷이 찾은 Ground Truth 좌표가local minimum 인지 global minimum인지는 정확히 알 수 없으니까요..? 혹여나 제가 잘못알고 있는 지식이 있다면 지적은 환영입니다! 답변 기다리겠습니다~!
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
학습시 이미지 해상도 관련
안녕하세요 선생님, 모델을 학습시킬때 궁금증이 생겼습니다. 이미지의 해상도에 따라 모델의 성능에 영향을 미치는거같은데요, 이미지의 해상도를 계속해서 높일수록 성능이 더 좋게 나올까요? 또한 선명도를 나타내는 DPI(Dots per inch), PPI(Pixel per inch)도 모델의 성능에 영향을 미칠까요?
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
프로젝트를 위한 커스텀 데이터셋 구현에 대해 질문이 있습니다!
안녕하세요 선생님! 학부생으로써 딥러닝 영상처리 프로젝트를 수행하며, 강의를 통해 정말 집약되고 많은 도움을 얻을 수 있었습니다. 한가지 궁금한 것이 있는데, MatterPort Mask R-CNN 모델에 학습데이터를 Load할 때 kaggle 데이터셋과 같이 이미지와 라벨이미지, 그리고 annotation이 csv파일로 되어있는 것처럼 특정한 데이터의 형식이 있어야 하는것으로 알고 있습니다. 혹시 개인이 커스텀데이터셋을 구현할 때 이용할 수 있는, 즉 본인의 커스텀데이터를 kaggle 데이터셋과 같은 형식이 있는 데이터셋으로 저장할 수 있는 방법이나, 프로그램툴이 어떤 것이 있을지 궁금합니다!
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
yolo 관련 질문
안녕하세요 선생님. yolo에 대하여 질문드립니다. 1. 기존 학습된 모델에 추가의 데이터를 학습시키면, 전체적인 성능이 떨어지는거 같은데 원인이 무엇일까요? 2. feature extractor를 freeze하고 classifier을 unfreeze하여 학습하고(50 epochs), feature extractor를 unfreeze하고 classifier도 unfreeze하여 학습하는(50 epochs) 방식에서요. 제 생각에는 처음부터 모두 unfreeze해서 한번만 학습하면 될 것 같은데, 왜 이러한 방식으로 학습을 하는걸까요?
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
BB regression 관련(wrt Retinanet)
안녕하세요 선생님, 질문이 있습니다. Retinanet paper 보면서 공부중인데요, 앵커박스 이용한 좌표값 학습 부분에서, 아래와 같이 오프셋을 출력한다고 하는데, (맨 밑 스크린샷) 그렇다는 말은 a. t가 gt와 iou가 0.7 넘는 앵커박스와의 xywh오프셋(학습시 사용하는 고정값) b. t^ 가 모델이 예측한 값(처음은 랜덤값) 이므로 학습시에 t - t^의 차이를 regression하는 것으로 이해했는데 맞나요? 이게 맞다면 학습이 끝나 infernence시에는 나온 오프셋에 해당 앵커박스 좌표값을 반영해서 bb 예측값을 얻게 되는 건가요? 상기와 같이 학습한다면 학습시 앵커박스 좌표값이 자연스럽게 라벨에 녹아들어있어서 이렇게 이해하고 넘어가려고 하는데,, 확인 부탁드리겠습니다!
- 미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
GCP 인스턴스 할당 관련 메세지
안녕하세요 선생님, 지금까지 클라우드 잘 활용해 왔는데 갑자기 오늘부터 하기와 같은 메세지가 나오면서 인스턴스 할당에 실패했다고 하네요. 현재 자원이 부족해서 할당 못하는 거라면 시간이 해결해 줄 거 같은데, 리젼을 바꿔서 새 인스턴스 만들어서 환경 만들어가는게 나을까요? 근데 어짜피 이제 돈이 얼마 안남은거 같아서 코랩으로 갈아 타려고 합니다만 ㅠㅠ