4-3 cross validation 강의

Question

안녕하세요! 늘 친절하게 설명해주셔서 감사드립니다.4-3 강의 코드에서validation_loss = []  for fold, (train_idx, val_idx) in enumerate(kfold.split(trainset)):          train_subsampler = torch.utils.data.SubsetRandomSampler(train_idx) # index 생성     val_subsampler = torch.utils.data.SubsetRandomSampler(val_idx) # index 생성          # sampler를 이용한 DataLoader 정의     trainloader = torch.utils.data.DataLoader(trainset, batch_size=32, sampler=train_subsampler)      valloader = torch.utils.data.DataLoader(trainset, batch_size=32, sampler=val_subsampler)          # 모델     model = Regressor()     optimizer = optim.Adam(model.parameters(), lr=0.001, weight_decay=1e-7)          for epoch in range(400): # 400번 학습을 진행한다.          for data in trainloader: # 무작위로 섞인 32개 데이터가 있는 배치가 하나 씩 들어온다.              inputs, values = data # data에는 X, Y가 들어있다.              optimizer.zero_grad() # 최적화 초기화              outputs = model(inputs) # 모델에 입력값 대입 후 예측값 산출             loss = criterion(outputs, values) # 손실 함수 계산             loss.backward() # 손실 함수 기준으로 역전파 설정              optimizer.step() # 역전파를 진행하고 가중치 업데이트      train_rmse = evaluation(trainloader) # 학습 데이터의 RMSE     val_rmse = evaluation(valloader)     print('k-fold', fold,' Train Loss: %.4f, Validation Loss: %.4f' %(train_rmse, val_rmse))      validation_loss.append(val_rmse)  validation_loss = np.array(validation_loss) mean = np.mean(validation_loss) std = np.std(validation_loss) print('Validation Score: %.4f, ± %.4f' %(mean, std))    위 코드에서 이중 for 문이 있는데 제가 생각하기에는첫번째 for 문for fold, (train_idx, val_idx) in enumerate(kfold.split(trainset)):여기서 dataset에 있는 모든 데이터가 DataLoader에 담겨야지다음 for문인 for epoch in range(400): # 400번 학습을 진행이 되어야하는 거 같은데위 코드 대로라면첫번째 for문 for fold, (train_idx, val_idx) in enumerate(kfold.split(trainset)) 에서train_idx, val_idx가 하나씩만 들어오게 되고 다음 for 문인 400번 학습 진행하는 for epoch in range(400): # 400번 학습을 진행한다. 가 오는데 제가 잘못이해한건가 싶어 질문드립니다.

Answer

안녕하세요.for fold, (train_idx, val_idx) in enumerate(kfold.split(trainset)):  이 부분에서 모든 데이터가 담겨 있으면 안됩니다. 데이터를 나누어 검증을 하는 것이므로 폴드의 개수만큼 인덱스를 나누어 사용하는 것입니다. 즉, 이 for문에서 폴드 개수 만큼 데이터 셋을 나누고 차례대로 나눠진 데이터를 받아 400번씩 epoch을 돌게 됩니다.예를 들어 폴드가 3개면 400번씩 3번 돌아서 각각 검증 손실값이 3번 나오게 됩니다 :)

arokim37

4-3 cross validation 강의

이 글과 비슷한 Q&A

질문 판다스기초1에서..

섹션3 작업형1 모의고사 풀어보기 1-3 문제 질문드립니다

라이브러리 및 데이터 불러오기 그리고 EDA 데이터 합치기 나누기

라이브러리 및 데이터 불러오기 그리고 EDA 강의 합치기 나누기