하이퍼파라미터 변수
작업형 2을 여러 데이터를 구해서 해보고 있는데 하이퍼 파라미터 변수를 조정해서 평가결과를 보면 학습률이 높거나 트리가 깊어야 점수가 좋게 나오는 경우가 있는 것 같습니다
예를 들면 대중적으로는 아래처럼 쓰는데
n_estimators=500, learning_rate=0.05, max_depth=6
이렇게 넣어야 score가 높게 나오는 경우입니다
n_estimators=400, learning_rate=0.13, max_depth=10
시험에서도 대중적인 파라미터 대신 평가 점수만 보고 파라미터를 조정해도 괜찮을지 궁금합니다!
답변 2
0
시험에서도 평가 점수 기준으로 파라미터 조정하셔도 되긴 한데, 한 가지 주의할 점이 있어요.
max_depth=10처럼 트리가 깊어지면 훈련 데이터에 과하게 맞춰지는 오버피팅 위험이 있어요. 지금 점수가 높게 나오는 건 test 데이터가 훈련 데이터와 분포가 비슷해서 우연히 잘 맞는 경우일 수 있거든요.
정확히 확인하려면 크로스 밸리데이션을 써야 하는데, 시험 환경에서는 코드가 복잡해지니 부담스러울 수 있어요.
하이퍼파라미터에는 기본값 또는 기본값 근처에 두고 다른 것에 집중하는 것이 더 좋을 것 같습니다.
0
안녕하세요, 인프런 AI 인턴입니다. 김혜인님.
하이퍼파라미터 조정은 머신러닝 모델의 성능을 향상시키는 중요한 과정입니다. 특히 시험과 같은 실제 상황에서는 평가 지표를 기준으로 하이퍼파라미터를 조정하는 것이 중요할 수 있습니다.
하이퍼파라미터 튜닝의 중요성
평가 지표 개선: 하이퍼파라미터를 조정하여 성능 향상을 이룰 수 있다면, 이는 모델이 데이터에 더 잘 적합하도록 도와줄 수 있습니다. 김혜인님의 예시처럼
n_estimators나learning_rate,max_depth와 같은 파라미터를 조정하여 모델의 성능을 눈에 띄게 개선할 수 있습니다.과대적합 방지: 하이퍼파라미터가 지나치게 커지면 과대적합이 발생할 수 있습니다. 교차 검증(cross-validation) 등을 통해 튜닝의 효과를 검증하면서 과대적합을 방지하는 것이 좋습니다.
시험에서의 하이퍼파라미터 조정
- 시험에서는 대중적인 하이퍼파라미터 값을 사용할 수도 있지만, 데이터의 특성과 모델의 퍼포먼스를 잘 이해한 상태에서 최적의 하이퍼파라미터를 찾는 것이 중요합니다.
- 각 데이터 셋마다 적합한 하이퍼파라미터가 다를 수 있기에, 다양한 값을 실험하면서 가장 높은 점수를 받을 수 있는 설정을 찾는 것이 유리합니다.
유사한 질문을 다룬 이전의 토론과 답변이 도움될 수 있습니다:
- 하이퍼파라미터튜닝: 랜덤포레스트나 다른 모델에서의 하이퍼파라미터 튜닝에 대한 논의가 있습니다.
최적의 하이퍼파라미터를 찾으려면 데이터에 따른 여러 시도를 통해 최적의 결과를 가져올 수 있도록 모델을 조정하는 것이 중요합니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
14강 "" 사용 관련 질문
0
2
1
캐글 제출 점수
0
9
1
기출 마무리 방법
0
27
1
빅이시 작업형2 기초 - 케이스 1~3 관련 문의
0
13
1
데이터프레임 슬라이싱 인덱싱 질문2
0
18
2
단일표본검정, 샤피로검정, 윌콕슨검정
0
27
2
강의자료 다운로드 여부
0
29
2
문제에 첨부된 예시와 실제 출력된 샘플 비교
0
24
2
원핫 인코딩 관련
0
33
2
타겟 분리
0
28
2
Id 삭제
0
32
2
roc_auc_score 질문: 작업형2 모의문제3 09분 48초
0
30
2
원핫인코딩 코드 질문
0
30
2
map 함수 사용 필수적인가요
0
38
2
수강 기한 연장 문의드립니다.
0
43
2
34강 평가지표
0
35
2
103강 작업2형 전처리(레이블인코딩 부분) 오류
0
26
3
작업형1_section14 문의
0
23
2
작업형1_연습문제 7번 관련입니다.
0
27
2
데이터 프레임 슬라이싱 혹은 데이터 선택하기가 어렵습니다.
0
25
2
크로스 밸리데이션 질문
0
32
2
로지스틱 회귀분석 질문
0
30
2
수치형 데이터만 선택하여 푸는 경우에 오답확률이 높아질까요?
0
32
2
2유형 object 컬럼 인코딩 관련 질문
0
47
2





