묻고 답해요
164만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
강사님께 수정을 제안드리고 싶은 것이 있습니다.
안녕하세요, 강의 너무나 잘 듣고 있습니다. 다름이 아니라 지금 제가 듣고 있는 mm_faster_rcnn_train_kitti를 다루고 있는 수업에서 old colab버전과 new kaggle 버전을 비교하는 과정에서 차이가 있는데, 이것이 저와 같이 컴뷰터 비전이 처음인 사람들에게 너무 큰 이슈여서 강사님께 이 부분을 개선시키면 어떨까 제안드리고픈게 있어서 제보드립니다. old colab 버전에는 ms coco데이터셋의 annotation 버전에서 변환한 mmdetection의 중립데이터형태 (mid point)에 대한 텍스트와 이미지를 활용한 설명이 꽤 자세하게 들어가 있는데, kaggle버전으로 넘어오면서 이 셀이 통째로 사라진듯하여 kaggle 버전에도 이것을 넣어주시는건 어떨까요? 강의를 봐도 이해가 가지 않아 여러번 돌려보다가 찾아서 제보드립니다.
-
미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
google automl efficientdet 다운로드 및 설치 오류
최고의 강의 너무나 감사합니다.설치 시 에러가 있어 문의드립니다.!cd /content/automl/efficientdet; pip install -r requirements.txt note: This error originates from a subprocess, and is likely not a problem with pip. ------------------------------ import inference # 강의영상에는 from keras import anchors 이지만 efficientdet 패키지의 keras 모듈이 tf2 로 변경됨. from tf2 import efficientdet_keras model = efficientdet_keras.EfficientDetModel(config=config) model.build((None, None, None, 3)) print('#### checkpoint name:', tf.train.latest_checkpoint(INFER_CFG.model_dir)) model.load_weights(tf.train.latest_checkpoint(INFER_CFG.model_dir)) model.summary() ValueError: File format not supported: filepath=/content/efficientdet-d0/model. Keras 3 only supports V3 `.keras` and `.weights.h5` files, or legacy V1/V2 `.h5` files.
-
해결됨딥러닝 기반 이미지·객체 인식: CNN에서 YOLO·DETR까지
객체 인식에 대한 질문이 있습니다.
안녕하십니까 선생님.강의를 열심히 듣고 있던 중, 문득 그런 궁금증이 생겼습니다.코스매틱 브랜드 중, 여성들의 '아이브로우' 같은 경우 어떻게 객체 인식을 해줄 수 있을까? 에 대한 의구심이 들었습니다.'흑갈색', '갈색' 이거를 사람 육안으로 파악해도 색상보다는 텍스트로 인식하는 것이 더 빠른데, 이런 것은 어떻게 객체 인식을 하면 되는건가요? 바코드, 텍스트 이런 것들이 주어져 있지 않고, 오로지 색상만으로 구분 할 수 있습니까? 이런 것들에 대한 인식의 정확도를 99% 까지 올릴 수 있는지 궁금합니다.빛의 반사, 포장지, 동그란 형태의 케이스에 대한 예외가 떠오릅니다.
-
미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
이상 탐지에 사용할 비전 기술 조언 부탁드립니다.
스크래치, 깨짐 등 다수의 이상 탐지를 위한효과적인 방법이나 적용할 기술이 있을까요?집중적으로 공부하고 싶습니다. 다음 주제에 관심이 있지만 (CNN 다중 분류, 세그먼테이션, yolo 객체인식)좀 더 구체적인 조언을 들을 수 있다면 좋겠습니다.
-
미해결[AI 기초] AI Research Engineer를 위한 CNN 이해하기
feature map을 더하는 이유가 궁금합니다.
안녕하세요 강사님 무료로 강의를 해주신 덕분에 이해를 잘하면서 따라왔습니다 감사합니다. 다름이 아니라 해당 강의의 2:45에서 질문이 하나 있습니다. 단순한 것인데 궁금한 것이 각각의 RGB채널에 대해서 피처맵 F1r, F1g, F1b가 나오게 되는데 이 피처맵들을 다 더하는 이유가 무엇인가요? 단지 색을 표현하기 위해서는 RGB가 있어서 이 세 개의 조합으로 색을 표현하기 때문에 각각의 피처맵을 더해서 표현되어야한다는 관점인건가요?
-
미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
OpenCV 관련 질문드립니다.
안녕하세요. OpenCV관련 질문이 있습니다.로컬 컴퓨터에서 OpenCV를 사용해서 학습을 하려고 합니다. CoLab이나 kaggle과 같은 GPU환경이 아니어도 학습을 할 수 있을까요?파이썬이 아닌 C# 또는 Java로도 진행할 수 있을까요? 대부분의 OpenCV 관련 강의는 파이썬으로 진행되어서 다른 언어로 진행하면 문제가 발생하진 않을까 고민 중입니다. - 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 강의 내용을 질문할 경우 몇분 몇초의 내용에 대한 것인지 반드시 기재 부탁드립니다. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.
-
해결됨딥러닝 기반 이미지·객체 인식: CNN에서 YOLO·DETR까지
Fast R-CNN 강의 관련 질의사항입니다.
안녕하세요 강사님. Fast R-CNN 강의를 들으며 이해가 잘 되지 않는 부분이 있어 질문드립니다. 원본 이미지를 800×800으로 입력하고, (1) Selective Search로 생성한 region proposal과 (2) CNN을 통해 얻은 feature map을 합치는 과정을 저는 RoI Projection이라고 이해했습니다. Q1. 그런데 region proposal 결과가 왜 원본 이미지와 달리 500×700 크기로 나오는지 궁금합니다.Q2. 또한 feature map은 원본 이미지 전체(800×800)를 커버하는 반면, region proposal은 앞선 질문처럼 이미지 일부(500×700)만을 다룹니다. 그런데도 RoI Projection을 적용했을 때, region proposal이 feature map 전체에 반영된 것처럼 보이는 그림이 이해되지 않습니다. 강의 자료에는 5x7 혹시 이는 그림의 단순화/오류인지 궁금합니다. Q3. 추가적으로, Fast R-CNN과 Faster R-CNN은 네트워크 학습을 기반으로 하기 때문에 단순히 입력 이미지에 바운딩 박스를 그리는 것 외에도 라벨링 과정이 필요할 것 같습니다. 이러한 라벨들이 어떻게 생성되는지에 대한 추가 강의도 있으면 좋겠습니다. (예: Fast R-CNN은 최종 예측을 위한 라벨, Faster R-CNN은 RPN 단계와 최종 예측을 위한 라벨) 읽어주셔서 감사합니다.
-
미해결딥러닝 기반 이미지·객체 인식: CNN에서 YOLO·DETR까지
섹션2 코드 관련하여 질의드립니다.
안녕하세요 강사님 섹션 2의 CNN 실습(100_CIFAR10_CNN.ipynb) 관련하여 질문드립니다.아래 코드에서는 train_loss에 배치별 loss를 누적한 뒤, for문이 끝나면 train_loss /= len(train_data) 로 평균을 계산하고 있습니다.그런데 loss.item()은 이미 각 배치에서 평균이 적용된 스칼라 값입니다. 따라서 다시 전체 데이터 개수(len(train_data))로 나누면 이중으로 평균이 계산되는 것 같습니다. 그래서 저는 train_loss += loss.item() * x.size(0) 형태로 배치 손실의 합계를 누적한 뒤, 마지막에 전체 데이터 수로 나누는 방식이보다 정확하다고 생각하는데, 혹시 어떻게 생각하실까요? 좋은 강의 제공해주셔서 감사합니다. for x, y in train_loader: # 훈련 데이터셋을 배치 단위로 순회 x, y = x.to(device), y.to(device) # 배치 데이터를 현재 디바이스로 이동 optimizer.zero_grad() # 이전 그라디언트를 초기화 z = model(x) # 모델을 통해 예측값 계산 loss = criterion(z, y) # 예측값과 실제 레이블 간의 손실 계산 train_loss += loss.item() # 손실 누적 y_pred = z.argmax(1) # 가장 높은 예측값의 인덱스를 정답으로 선택 train_acc += (y_pred == y).sum().item() # 정확히 예측된 개수 누적 loss.backward() # 손실에 대한 그라디언트 계산 optimizer.step() # 모델의 가중치 업데이트 train_loss /= len(train_data) # 평균 훈련 손실 계산 train_acc /= len(train_data) # 평균 훈련 정확도 계산 LOSS.append(train_loss) ACC.append(train_acc)
-
미해결딥러닝 CNN 완벽 가이드 - Pytorch 버전
왜 train epoch에선 0.0 validate epoch에선 0?
안녕하세요강의를 듣다보니 train epoch의 metric은 초기에0.0으로 선언하고validate epoch의 metric은 0으로 선언하는 것을 볼 수 있었습니다.혹시 담겨진 어떤 의미가 있을까요?
-
미해결딥러닝 CNN 완벽 가이드 - Pytorch 버전
Attribute Error(Frame Work 3번째 강의)
''' 질문 내용 강의 수강하며 따로 코드 수정없이 실행해보며 이해해보는 중입니다. 아래와 같은 에러가 나서 수정해보고자 하는데 에러 해결이 안되어서 여쭤봅니다. 상기의 ''' ######### 실행 코드 from torch.optim import Adam BATCH_SIZE = 32 INPUT_SIZE = 28 # train_loader = DataLoader(train_data, batch_size=BATCH_SIZE, shuffle=True, num_workers=4 ) # val_loader = DataLoader(val_data, batch_size=BATCH_SIZE, shuffle=False, num_workers=4) # model, device, optimizer, loss 함수 생성. model = create_simple_linear_model(input_size=INPUT_SIZE, num_classes=10) device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') optimizer = Adam(model.parameters(), lr=0.001) loss_fn = nn.CrossEntropyLoss() # Trainer 객체 생성. trainer = Trainer_01(model=model, loss_fn=loss_fn, optimizer=optimizer, train_loader=train_loader, val_loader=val_loader, device=device) #fit() 을 호출하여 학습과 검증을 epochs 수 만큼 반복 수행. trainer.fit(epochs=10) ########### 에러내용 --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) /tmp/ipykernel_36/3815854863.py in <cell line: 0>() 8 model = create_simple_linear_model(input_size=INPUT_SIZE, num_classes=10) 9 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') ---> 10 optimizer = Adam(model.parameters(), lr=0.001) 11 loss_fn = nn.CrossEntropyLoss() 12 /usr/local/lib/python3.11/dist-packages/torch/optim/adam.py in init(self, params, lr, betas, eps, weight_decay, amsgrad, foreach, maximize, capturable, differentiable, fused) 97 fused=fused, 98 ) ---> 99 super().__init__(params, defaults) 100 101 if fused: /usr/local/lib/python3.11/dist-packages/torch/optim/optimizer.py in init(self, params, defaults) 375 376 for param_group in param_groups: --> 377 self.add_param_group(cast(dict, param_group)) 378 379 # Allows cudagraph_capture_health_check to rig a poor man's TORCH_WARN_ONCE in python, /usr/local/lib/python3.11/dist-packages/torch/_compile.py in inner(*args, **kwargs) 25 disable_fn = getattr(fn, "__dynamo_disable", None) 26 if disable_fn is None: ---> 27 import torch._dynamo 28 29 disable_fn = torch._dynamo.disable(fn, recursive) /usr/local/lib/python3.11/dist-packages/torch/_dynamo/__init__.py in <module> 1 import torch 2 ----> 3 from . import convert_frame, eval_frame, resume_execution 4 from .backends.registry import list_backends, lookup_backend, register_backend 5 from .callback import callback_handler, on_compile_end, on_compile_start /usr/local/lib/python3.11/dist-packages/torch/_dynamo/convert_frame.py in <module> 31 from torch._C._dynamo.guards import GlobalStateGuard 32 from torch._dynamo.distributed import get_compile_pg ---> 33 from torch._dynamo.symbolic_convert import TensorifyState 34 from torch._guards import compile_context, CompileContext, CompileId, tracing 35 from torch._logging import structured /usr/local/lib/python3.11/dist-packages/torch/_dynamo/symbolic_convert.py in <module> 28 from torch._guards import tracing, TracingContext 29 ---> 30 from . import config, exc, logging as torchdynamo_logging, trace_rules, variables 31 from .bytecode_analysis import ( 32 get_indexof, /usr/local/lib/python3.11/dist-packages/torch/_dynamo/trace_rules.py in <module> 3264 "torch.distributed._composable.replicate", 3265 } -> 3266 if not torch._dynamo.config.skip_fsdp_hooks: 3267 LEGACY_MOD_INLINELIST.add("torch.distributed.fsdp._fully_shard") 3268 AttributeError: partially initialized module 'torch._dynamo' has no attribute 'config' (most likely due to a circular import)
-
미해결딥러닝 CNN 완벽 가이드 - Pytorch 버전
이 다음강의
안녕하세요파이토치 강의 잘 듣고 있습니다.이전 글을 봤을 때,객체 탐지 구현하는거 계획중이라고 들었는데,혹시 진행되고 있는지, 한다면 언제쯤 강의 오픈하는지 여쭙고자 합니다 !
-
미해결딥러닝 CNN 완벽 가이드 - Pytorch 버전
Frame Work의 근본에 대한 이해
안녕하세요! 강의 너무 잘 듣고 있습니다. 파이썬 언어 정도만 이해한 상태에서 해당 강의를 수강하고 있습니다.딥러닝에서 퍼셉트론이 가지고 있는 정의와 은닉층을 통과하면서 '무언가'를 학습하고 output으로 결과를 도출해낸다.이런 학습 과정을 도와주는 여러 모듈들이 있으며 이는 nn.module이 있다. 정도로 이해 후 현재 Framework2 를 수강중에 있습니다.여기서 이해가 어려운 부분들이 있습니다.이미지 시각화 부분train_data에서[0][0]과 [0][1]은 이미지와 labes로 이미 페어가 된 자료라고 인지하면 될까요? show_images함수에서 class_names도 원래 약속되어있던 이름을 사람이 인지하기 좋게 이름만 매칭시켜준 것일까요?Linear 모델 생성 부분SimpleLinearModel_01 클래스가 초기화를 통해서 linear_01 -> 활성화 함수 -> linear_02 ->활성화 함수 -> linear_03 = output 으로 각 레이어를 지나가는 단계임은 인지가 되나, 왜 점차 features가 줄어드는가? 와 무엇을 학습하면서 layer를 지나가는가? 가 이해가 안됩니다. 결국 10개의 feature로 줄인다는것이 최초에는 28*28롤 784로 한 이미지의 pixel 갯수로 infeture로 받았으니 마지막에는 10개의 픽셀이 남는다는 것으로 이해되는데, 어떤 핵심(?) 또는 학습한 픽셀을 남기게 되는것인가? 가 궁금합니다.처음으로 학습하여 '무엇을 모르는가?' 에 대한 확신이 없어 질문이 조금 난잡하나, 꼭 이해하고 싶어 질문드립니다.추가로 제가 이해가 부족하다고 판단되는 부분이나 추가학습 부분 추천해주시면 감사하겠습니다.감사합니다!
-
미해결딥러닝 CNN 완벽 가이드 - Pytorch 버전
안녕하세요! Kaggle import부분 질문이 있습니다.
혹시 원래 import시 대량의 시간이걸리는 것 일까요?import 후 전체적으로 따라가려했으나, 진행이 더뎌져서 학습이 더뎌지는 중이여서 문의드립니다.특정 세팅이 잘못되어있는 것인지... 궁금합니다! 감사합니다.
-
미해결딥러닝 CNN 완벽 가이드 - Pytorch 버전
혹시 강의내용과는 관계없지만
CNN위주의 강의인데 RNN과는 아에 다른 영역인가요?
-
미해결[AI 실무] AI Research Engineer를 위한 논문 구현 시작하기 with PyTorch
normalization 관련 질문
논문에 나온대로 style representation의 normalization을 진행한다면gram_matrix에서 div는 삭제하고 mseLoss를 구한 후 4*b*c^2*(h*w)^2를 수행해주면 되는걸까요
-
미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
강의 구성 관련해서 질문이 있습니다
선생님 안녕하세요 혹시 이 강의는 tensorflow 로 만들어진 강의인가요? 선생님의 torch cnn강의를 듣고도 이 강의를 들을 수 있는 것인지, 아니면 tensorflow 강의를 들어야만 이 강의를 들을 수 있는것인지 궁금합니다.
-
해결됨진짜 현장에서 통하는 OCR, 이렇게 만듭니다.
실무 OCR을 위한 심도 질문
안녕하세요? 강사님실무에 적용할 수 있는 상세 내용과 강사님만의 know-how를 알려 주셔서 감사합니다.더 깊게 이해하고 싶은 마음에 다소 질문이 길고 복잡한 점을 이해해 주시면 감사하겠습니다.1. 최신 OCR model 성능을 보여주셨는데, 결국은 multi modal LLM을 쓰면 만사 능통한 것처럼 결론이 내려집니다. 그렇다면 OCR model보다는 image처리가 가능한 LLM model 비교하는 게 더 맞다고 생각이 듭니다. 어떻게 생각하시나요?2. LLM image처리가 좋아짐으로써, 굳이 opencv로 처리하지 않아도 그 결과가 좋을 것 같습니다. 앞으로도 이러한 작업이 필요할까요? (그냥 LLM에 넣는 것과 opencv로 전처리한 것과 비교하는 실험도 첨부해 주셨으면 좋겠습니다.)3. 보통 기업에서 OCR을 사용할 때는 개인정보를 포함한 문서가 많습니다. 외부 LLM 사용을 꺼릴 때가 많습니다. sLLM으로 처리하고 싶은데, function calling이나, pydantic과 같은 양식 처리가 어렵습니다. 어떻게 해결할 수 있을까요?4. pipeline을 정리하면,opencv 전처리 -> cropping -> LLM 구조입니다. 원하는 양식대로 만드는 작업은 LLM 성능과 prompt의 역량으로 보입니다. 문제는 문서의 양식이 다양해서 한 문서 양식을 추출할 때마다 복잡한 prompt를 작성해야 하는 것일까요? 또한 문서 종류가 달라질 때마다 수정해야 할까요?만약 이러한 것이라면 기존 OCR과 같이 문서 종류별로 OCR format이 다 다르게 정해져야 할텐데, 어떻게 해결할 수 있을까요?전단지말고 다른 여러 문서들도 똑같이 적용될 수 있는지 다양한 문서들에 대한 OCR 작업 예시 강의를 더 올려주시길 바랍니다.
-
해결됨진짜 현장에서 통하는 OCR, 이렇게 만듭니다.
전체 코드는 어디에서 볼 수 있나요?
감사합니다.
-
해결됨[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
모델 변환 성능 질문드립니다.
안녕하세요 선생님 강의 잘 듣고 있는 학생입니다. 요즘 저의 custom dataset으로 여러 object detection 모델을 돌려보고 있는데 시작은 보통 pytorch의 pt모델로 학습을 시작을 하는데제가 임베디드 시스템에서 돌려보고 싶어서 추론을 하고 싶어PyTorch -> onnx -> tensorflow -> tflite 변환 구조를 따라가 최종 모델을 tflite로 구성하려고 하는데양자화를 하지 않았는데도 tflite(float32) 성능이 아예 떨어져 pytorch에서는 잘 detect하던 모델이 아예 검출을 하지 못하는 상황이 발생하는데 혹시 이러한 상황이 아무래도 모델을 tflite로 축소하다 보니 자연스러운 상황인건지 이러한 상황을 극복하려면 데이터를 더 수집해서 성능을 높여야하는지 방법에 대해서도 좀 여쭙고 싶습니다.감사합니다~
-
미해결딥러닝 CNN 완벽 가이드 - Pytorch 버전
feature map 크기 질문
안녕하세요 (퀴즈 - 출력 Feature Map으로 적용된 Conv 찾기 강의)밑의 그림의 27*27*256 feature map이 잘 이해가 가지 않습니다. 5*5 커널을 적용했다면 사이즈가 12*12*256이 되어야 하지 않나 생각이 들어서요~!