강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

co choi님의 프로필 이미지
co choi

작성한 질문수

[개정판] 파이썬 머신러닝 완벽 가이드

선생님 질문있습니다..!

작성

·

224

0

ADP 시험을 준비중인데 어떤 분은 과대적합을 확인할때 이런식으로 하길래 질문드립니다.

 

lr =  LinearRegression()

lr.fit(X_train, y_train)

 

# 학습 데이터 성능

lr.score(X_train, y_train)

# 검증용 데이터 성능

lr.score(X_test, y_test)

 

이런식으로 하고 만약 학습데이터 성능이 검증용 데이터 성능 보다 지나치게 높으면 과대적합이 일어났다고 생각하여

다중공선성을 해결하는식으로 해서 모델을 개선한다음 성능을 측정하던데 

여기서 질문이 있습니다.. 제 생각에는 학습용 데이터로 학습을 시킨다음 다시 학습용 데이터로 성능을 측정하면 무조건 과대적합이 일어날수 밖에 없을거 같은데 이부분에 대해서 답변 부탁드리겠습니다..!

 

답변 1

1

권 철민님의 프로필 이미지
권 철민
지식공유자

안녕하십니까, 

적어주신 방안대로 오버피팅 여부를 확인할 수 있습니다. 

학습용 데이터로 학습하고 학습용 데이터로 예측한다고 무조건 100% 예측을 하지는 않습니다. 

다만 결정 트리같은 경우는 max_depth를 무한정 키우고, 정확히 학습 데이터를 예측 할때까지 모델을 키워나가면 학습용 데이터로 100% 예측이 가능할 수 도 있습니다. 그러면 오버피팅이 훨씬 커질 것입니다. 

감사합니다. 

co choi님의 프로필 이미지
co choi

작성한 질문수

질문하기