inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[파이토치] 실전 인공지능으로 이어지는 딥러닝 - 기초부터 논문 구현까지

안녕하세요! 불균형 데이터 처리 과정중 augmentation에 대해 질문이 있습니다

해결된 질문

404

jihun0423

작성한 질문수 4

2

imbalanced data를 처리할 때, weightedrandomsampler (replacement=True) 와 augmentation을 통해 불균형을 해소하고자 하는데, weightedrandomsampler에 있는 num_samples 파라미터에 관해 궁금한점이 있어서 질문드립니다.

 

weightedrandomsampler가 작동하는 방법이, 샘플마다 가중치를 줘서 데이터 수가 적은 라벨에서는 더 높은 확률로 뽑히고, 데이터 수가 많은 라벨에서는 더 낮은 확률로 뽑혀서 결국 확률상 거의 같은 확률로 뽑도록 만들어서 불균형을 해소하는 걸로 알고 있습니다.

이때, 만약 num_samples를 그냥 원래 train_sets의 길이로 지정을 하면 데이터가 적은 라벨에서는 augmentation을 통해 이미지를 변형해가며 오버샘플링이 된 것 처럼 샘플수가 증가되겠지만, 반대로 원래 데이터가 많던 라벨에서는 기존에 있던 데이터들에서 일부는 뽑히지 않을 수도 있지 않나요?

예를들어 (1000,200,100)의 불균형 데이터가 있다고 했을때, 전체 데이터의 개수인 1300만큼 weightedrandomsampler에서 num_samples=1300으로 하고 추출을 한다면, 라벨별로 1300/3 = 433개씩 뽑힐텐데, 이러면 첫번째 라벨의 데이터는 1000개에서 433개를 뺀 567개는 그대로 누락되는건가요?

만약 그렇다면 num_samples를 더 큰 숫자로 해서 가지고 있는 데이터를 전부 불러오려고 한다면, 소수의 데이터를 너무 많이 재활용해서 과적합이 될까요?

 

python 머신러닝 딥러닝 인공신경망 pytorch

답변 1

0

딥러닝호형

안녕하세요.

정말 좋은 질문입니다!!!

  1. 실제로 누락 가능성이 있기 때문에 충분한 에폭이 필요합니다! 그러나 언급하신 내용처럼 배치 사이즈는 극단적으로 크게 혹은 작게 하지는 않습니다.

  2. 과적합 관련해서는 우려하신 일이 일어날 수 있기 때문에 정규화 테크닉들을 함께 써주시면 됩니다!!

열공 하세요 :)

감사합니다!

수업자료 제공 부탁드립니다.

0

95

2

코드가 어디에 있는지 모르겠습니다.

0

93

2

논문 구현

0

187

2

overfitting이 나는 이유가 궁금합니다.

1

170

2

분류 성능이 잘 안 나오는 이유

0

217

1

AutoEncoder 차원 질문

1

250

2

사전 학습 모델에서의 layer 변경에 대한 질문

1

221

1

7강 폴더 만들

0

260

1

4-3강 cross-validation에서의 best model 선정 기준

0

450

1

regression 문제에 대한 결과 시각화

0

213

1

Loss function 관련하여 질문드립니다.

0

956

1

early stopping 코드 문의

0

325

1

예측 그래프

0

355

1

데이터 불균형

1

364

1

8강 전이 학습 질문

0

395

2

data의 gpu처리 질문

0

241

1

nn.Linear(1024, 10) 관련 질문드립니다.

0

288

1

학습과 평가시 Loss 함수가 다른 이유

0

249

1

전처리 관련해서 질문 있습니다.

0

225

1

데이터 엔지니어의 역량을 기르려면 어떻게 해야할까요?

0

934

2

역전파 내용 중 미분 관련 질문 드립니다

1

282

1

8강 전이학습에서 kernel size 관련 질문 드립니다.

1

957

1

이미지분류-합성곱신경망(CNN) 피쳐맵 질문입니다.

1

586

1

14강 데이터 불균형 RandomRotation

1

482

1