inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[개정판] 파이썬 머신러닝 완벽 가이드

validation loss와 training loss 질문

4419

만두

작성한 질문수 1

0

안녕하세요! 머신러닝과 딥러닝을 공부하며 궁금한 점이 생겨 질문드립니다.

다양한 데이터들로 배운 내용들을 실습해보고 있는데

모델 학습 후 학습 곡선을 그려 training_loss와 validation_loss를 확인해보면 training loss가 더 높고 validation_loss가 더 작은 값을 가지는 경우가 있더라구요.

검색을 해봐도 train 데이터를 이용해 모델을 학습한 것이므로 training loss가 더 낮아야 할 것 같은데,

이 값이 더 높게 나오는 이유를 알 수 있을까요?

 

또한 이렇게 validation loss이 더 낮은 상황이 지속되다가 training_loss와 validation_loss가 교차하게 되어 두 수치의 대소 관계가 바뀌게 된다면 이것은 무엇을 의미하는지 알 수 있을까요?

 

통계 머신러닝 배워볼래요? python

답변 1

0

권 철민

안녕하십니까,

일반적으로 대부분의 경우는 training loss가 validation loss보다 낮습니다.

validation loss가 training loss보다 낮다면 그건 validation dataset이 데이터세트를 대표할만한 수준으로 샘플링 되지 않은 경우들이 대부분입니다.

validation 데이터 세트가 너무 작거나, 또는 너무 예측하기 쉬운 데이터 세트로 구성되어 있을 때 그런 경우가 발생할 수 있습니다.

validation 데이터 세트가 너무 예측하기 쉬운 데이터 세트로 구성된 경우를 예로 들어보면 Iris 데이터 세트는 label이 Setosa인 경우가 다른 경우보다 훨씬 예측하기 쉽습니다. 학습 데이트는 개별 label별로 잘 섞여 있는 데이터 세트 이지만 validation 데이터 세트는 Setosa인 경우가 훨씬 많다면 validation loss는 training loss보다 더 작을 수도 있습니다.

그리고 iteration을 반복하면 할수록 training loss는 매우 작아지고, 결국에 다시 training loss가 validation loss보다 더 작아지는 일반적인 현상으로 돌아 올 수 있습니다.

요약드리자면 validation 데이터 세트가 적절하게 만들어졌는지, 다른 random_state를 부여하거나 학습 데이터의 레이블 건수와 분포가 유사한지, 그리고 validation 건수를 좀 더 증가시켜서 다시 한번 테스트를 해보시는게 좋을 것 같습니다.

 

감사합니다.

 

모델 서빙과 관련된 강좌가 출시되는지 질문드립니다.

0

55

2

안녕하세요 열심히 수강중인 학생입니다

0

91

2

정수 인덱싱

0

86

2

넘파이 오류

0

113

2

11강 numpy의 axis 축 질문 드립니다.

0

107

2

Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.

0

96

2

Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.

0

79

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

83

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

75

2

5강 강의 오류가 있어요.

0

90

1

실무에서 LTV 관련 모델 선택 질문입니다!

0

81

2

14강 강의 듣는중에 궁금한게 있어서 질문합니다~

0

79

3

파이썬 다운그레이 후 사이킷런 재설치

0

131

2

좋은 강의 감사합니다.

0

80

2

scoring 함수 음수값

0

74

2

6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?

0

108

2

분류 평가 정확도 예측

0

90

2

안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.

0

114

1

카카오톡 채널 있나요

0

119

1

혹시 강의에서 사용하시는 ppt 받을 수 있는건가요

0

193

2

pca 스케일링 관련하여 질문드립니다.

0

109

2

주피터 대신 구글 코랩

0

184

2

강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?

0

156

2

실루엣 스코어..

0

93

2