안녕하세요 vit가 cnn을 대체하게 되는 것인가요?
464
작성한 질문수 44
안녕하세요.
연구를 한다기 보다는, 개인적으로 이미지처리 kaggle 코드를 볼 때 상위코드가 최근에는 VIT 기술을 적용한 것인데,
이것이 자연어처리 쪽에 사용하는 transformer attentiton 기술을 가져와서 사용하게 되는군요. 자연어처리 쪽은 딥러닝 기초 때 RNN만 간단히 본 것이라, transformer 쪽은 잘 몰라서요
최근에 SOTA와 많이 근접한 VIT가 CNN을 대체할 수 있나요? 혹시 이는 추후 강의에서 언급하실 계획인가요?
감사합니다
답변 1
0
안녕하십니까,
VIT가 성능이 많이 좋군요. 하지만 모델이 너무 무겁습니다.
아래 Link를 보시면 VIT를 Scaling한 모델이 top 1 accuracy가 90.45% 이고 EfficientNet-L2 의 Meta Pseudo Label의 90.2% 로 0.25 % 차이가 나지만 parameter 수는 EfficientNet-L2 가 1/4 수준입니다. 현재로는 학습/추론 시간을 고려한 성능은 EfficientNet이 더 나아 보입니다.
https://paperswithcode.com/sota/image-classification-on-imagenet
1. 최근에 SOTA와 많이 근접한 VIT가 CNN을 대체할 수 있나요? 혹시 이는 추후 강의에서 언급하실 계획인가요?
=> 미래를 예측할 능력은 안되지만, 제 생각으로는 CNN을 대체하기는 어려워 보입니다. 다만 VIT 역시 Computer vision에서 뛰어난 기법중의 하나로 인지하시면 좋을 것 같습니다. 추후 강의에서 다룰 예정은 아직 없습니다.
resize 질문
0
60
1
20251212 Kaggle 런타임에 scikit-learn 설치 실패 트러블 슈팅
0
86
1
Loss와 매트릭 관계
0
75
2
Boston 코랩 실습
0
170
2
배치 정규화의 이해와 적용 2 강의 질문
0
143
2
Augmentation원본에 적용해서 데이터 갯수 자체를 늘리는 행위는 의미가있나요?
0
151
2
Conv함수 안에 activation 을 넣지 않는 이유가 뭔지 궁금합니다.
0
212
2
소프트맥스 관련 질문입니다
0
214
1
강의 관련 질문입니다
0
161
2
residual block과 identity block의 차이
0
199
2
옵티마이저와 경사하강법의 차이가 궁금합니다.
1
250
1
실습 환경
0
171
2
입력 이미지 크기
0
256
2
데이터 증강
0
203
2
albumentations ShiftScaleRotate
0
210
1
Model Input Size 관련
0
292
1
마지막에 bird -> frog 말고도 deer -> frog 도 잘못된것 아닌가요??
0
206
1
일반적인 질문 (kaggle notebook사용)
0
274
2
실무에서 Augmentation 적용 시
0
346
2
안녕하세요 교수님
0
235
1
가중치 초기화(Weight Initialization) 질문입니다.
0
332
1
테스트 데이터셋 predict의 'NoneType' object has no attribute 'shape' 오류
0
412
1
학습이 이상하게 됩니다.
2
1040
2
boston import가 안됩니다
0
230
1





