안녕하세요 질문입니다!

Question

질 높은 강의 감사합니다.  1. 데이터 어그멘테이션이 훈련데이터의 품질을 올려주는거라 생각이 되는데 가령 5만건의 데이터중 AGU(어그멘테이션)을 하게 되면 랜덤으로 변환시키니 예를들어 5만건의 원래 데이터가 AUG를 걸쳐 원본데이터(2,5000) + AGU image(25000)개로 되는것 보다 원래의 원본데이터 (5,0000) + AGU image(50000) 이런식으로 하는게 더 학습이 잘 되지 않을까 라는 생각인데 혹시 오버피팅이나 이런 부분들 때문인지 궁금합니다.

Answer

안녕하십니까

아 이 질문이 있는걸 놓쳤군요. 답변이 늦어져서 죄송합니다

두가지 경우 모두 큰 차이가 없을수 있습니다

첫번째 이유로는

Iteration 이나 epoch 수를 높이게 되면 반복해서 iteration 하면서 augmentation 적용 횟수와 원본이미지가 선택될수 있는 경우의 수가 동시에 높아집니다

Epoch수를 높이고 random 비율을 잘 조정하면 원본 이미지의 상당수를 그대로 입력하고 또한 augmentation되는 이미지의 갯수또한 비례해서 늘어나게 될겁니다

물론 미리 원본 오만장에 augmentation 오만장을 적용해서 총 10만장을 적용할 수는 있지만 결국은 원본 오만장을 가지고 변환한다는 측면에서는 거의 동일합니다

미리 augmentation을 적용할거냐 아니면 동적으로 augmentation을 적용할거냐의 차이인데 이게 유의미한 성능 차이로 귀결될것 같지는 않습니다

두번째로 미리 augmentation을 적용하게 되면 augmentation 된 이미지에 다시 augmentation을 적용하면 원본이미지와 크게 다른 이미지가 될 확률이 더 커집니다

때문에 위 두 방식이 큰 차이는 없을거 같습니다

Alex

안녕하세요 질문입니다!

이 글과 비슷한 Q&A

주피터 노트북 201_REGRESSION_BIKE_SHARING_MODELS 중 질문

CRUD에서 CR만 배우는건가요

tiny kitti 데이터로 MMDectection Train 실습에서 클래스 id 질문

Section14 관련 질문요청드립니다.