안녕하세요! 불균형 데이터 처리 과정중 augmentation에 대해 질문이 있습니다
imbalanced data를 처리할 때, weightedrandomsampler (replacement=True) 와 augmentation을 통해 불균형을 해소하고자 하는데, weightedrandomsampler에 있는 num_samples 파라미터에 관해 궁금한점이 있어서 질문드립니다.
weightedrandomsampler가 작동하는 방법이, 샘플마다 가중치를 줘서 데이터 수가 적은 라벨에서는 더 높은 확률로 뽑히고, 데이터 수가 많은 라벨에서는 더 낮은 확률로 뽑혀서 결국 확률상 거의 같은 확률로 뽑도록 만들어서 불균형을 해소하는 걸로 알고 있습니다.
이때, 만약 num_samples를 그냥 원래 train_sets의 길이로 지정을 하면 데이터가 적은 라벨에서는 augmentation을 통해 이미지를 변형해가며 오버샘플링이 된 것 처럼 샘플수가 증가되겠지만, 반대로 원래 데이터가 많던 라벨에서는 기존에 있던 데이터들에서 일부는 뽑히지 않을 수도 있지 않나요?
예를들어 (1000,200,100)의 불균형 데이터가 있다고 했을때, 전체 데이터의 개수인 1300만큼 weightedrandomsampler에서 num_samples=1300으로 하고 추출을 한다면, 라벨별로 1300/3 = 433개씩 뽑힐텐데, 이러면 첫번째 라벨의 데이터는 1000개에서 433개를 뺀 567개는 그대로 누락되는건가요?
만약 그렇다면 num_samples를 더 큰 숫자로 해서 가지고 있는 데이터를 전부 불러오려고 한다면, 소수의 데이터를 너무 많이 재활용해서 과적합이 될까요?
답변 1
0
안녕하세요.
정말 좋은 질문입니다!!!
실제로 누락 가능성이 있기 때문에 충분한 에폭이 필요합니다! 그러나 언급하신 내용처럼 배치 사이즈는 극단적으로 크게 혹은 작게 하지는 않습니다.
과적합 관련해서는 우려하신 일이 일어날 수 있기 때문에 정규화 테크닉들을 함께 써주시면 됩니다!!
열공 하세요 :)
감사합니다!
수업자료 제공 부탁드립니다.
0
95
2
코드가 어디에 있는지 모르겠습니다.
0
93
2
논문 구현
0
187
2
overfitting이 나는 이유가 궁금합니다.
1
170
2
분류 성능이 잘 안 나오는 이유
0
217
1
AutoEncoder 차원 질문
1
250
2
사전 학습 모델에서의 layer 변경에 대한 질문
1
221
1
7강 폴더 만들
0
260
1
4-3강 cross-validation에서의 best model 선정 기준
0
450
1
regression 문제에 대한 결과 시각화
0
213
1
Loss function 관련하여 질문드립니다.
0
956
1
early stopping 코드 문의
0
325
1
예측 그래프
0
355
1
데이터 불균형
1
364
1
8강 전이 학습 질문
0
395
2
data의 gpu처리 질문
0
241
1
nn.Linear(1024, 10) 관련 질문드립니다.
0
288
1
학습과 평가시 Loss 함수가 다른 이유
0
249
1
전처리 관련해서 질문 있습니다.
0
225
1
데이터 엔지니어의 역량을 기르려면 어떻게 해야할까요?
0
934
2
역전파 내용 중 미분 관련 질문 드립니다
1
282
1
8강 전이학습에서 kernel size 관련 질문 드립니다.
1
957
1
이미지분류-합성곱신경망(CNN) 피쳐맵 질문입니다.
1
586
1
14강 데이터 불균형 RandomRotation
1
482
1





