🤍 전 강의 25% 할인 중 🤍

2024년 상반기를 돌아보고 하반기에도 함께 성장해요!
인프런이 준비한 25% 할인 받으러 가기 >>

  • 카테고리

    질문 & 답변
  • 세부 분야

    컴퓨터 비전

  • 해결 여부

    미해결

안녕하세요 vit가 cnn을 대체하게 되는 것인가요?

21.07.08 13:49 작성 조회수 335

0

안녕하세요.

연구를 한다기 보다는, 개인적으로 이미지처리 kaggle 코드를 볼 때 상위코드가 최근에는 VIT 기술을 적용한 것인데,

이것이 자연어처리 쪽에 사용하는 transformer attentiton 기술을 가져와서 사용하게 되는군요. 자연어처리 쪽은 딥러닝 기초 때 RNN만 간단히 본 것이라, transformer 쪽은 잘 몰라서요

최근에 SOTA와 많이 근접한 VIT가 CNN을 대체할 수 있나요? 혹시 이는 추후 강의에서 언급하실 계획인가요?

감사합니다

답변 1

답변을 작성해보세요.

0

안녕하십니까, 

VIT가 성능이 많이 좋군요. 하지만 모델이 너무 무겁습니다. 

아래 Link를 보시면 VIT를 Scaling한 모델이 top 1 accuracy가 90.45% 이고 EfficientNet-L2 의 Meta Pseudo Label의 90.2% 로 0.25 % 차이가 나지만 parameter 수는 EfficientNet-L2 가 1/4 수준입니다.  현재로는 학습/추론 시간을 고려한 성능은 EfficientNet이 더 나아 보입니다. 

https://paperswithcode.com/sota/image-classification-on-imagenet

1. 최근에 SOTA와 많이 근접한 VIT가 CNN을 대체할 수 있나요? 혹시 이는 추후 강의에서 언급하실 계획인가요?

=> 미래를 예측할 능력은 안되지만, 제 생각으로는 CNN을 대체하기는 어려워 보입니다. 다만 VIT 역시 Computer vision에서 뛰어난 기법중의 하나로 인지하시면 좋을 것 같습니다. 추후 강의에서 다룰 예정은 아직 없습니다. 

채널톡 아이콘