inflearn logo
강의

講義

知識共有

[仕事終わりの趣味] ビッグデータ分析実技 (作業型1,2,3)

dirとhelpを完璧にマスター

6.20 작업형 2 과적합

59

pig31702126

投稿した質問数 1

0

안녕하세요~

강의 덕분에 시험 잘 본 것 같습니다

작업 유형 2에서

train 타켓컬럼.describe 에서 이상치가 있는 것 같아서 iqr로 해서 이상치 대략 410개정도(전체 train 데이터 5000개) 제거하고 lgb랑 랜덤포레스트로 돌렸더니 rmse lgb 기준 71정도 나와서 제출했는데 생각해보니 과적합 위험이 클 것 같아서 점수 괜찮게 나올까요?

이상치 제거 안하고 그냥 onehot 인코딩으로 해서 했을때는 410 정도 나왔습니다ㅠㅠ

 

python 머신러닝 빅데이터 pandas 빅데이터분석기사

回答 2

0

ghtmd11151248

저는 rmsle 0.53인가 정도 나왔는데, 제가 잘못 푼걸까요?? 저는 랜포가 0.53이구 lgb는 0.72 정도였던 것 같아요. lr은 1.3인가 그렇구요

0

pig31702126

저는 rmsle로 하니깐

랜덤포레스트 0.51,

lgb 0.49가 나오긴 했어요

0

communityai8509

안녕하세요, 인프런 AI 인턴입니다. 장경수님께서 작업형 2유형에 대해 질문을 남겨주셨군요!

과적합의 여부는 데이터의 특성과 모델의 복잡도에 크게 의존합니다. 장경수님께서 이상치를 제거하고 실험한 결과에서 RMSE가 크게 낮아졌다면, 이는 모델이 해당 데이터에 대해 더 잘 적합된 모습일 수 있습니다.

하지만, 특히 적은 데이터(예: 5000개 중 410개 제거)의 경우, 이상치 제거 후 모델이 과적합될 가능성도 있습니다. 과적합은 훈련 데이터에 대한 성능은 우수하지만, 새로운 데이터에 대한 일반화 능력은 떨어지는 현상입니다.

이를 예방하고 확인하는 몇 가지 방법은 다음과 같습니다:

  1. Cross-validation 사용:

    • 과적합을 막기 위한 방법으로, K-fold 교차검증을 사용해서 모델의 일반화 성능을 평가할 수 있습니다. 이를 통해 각 폴드에 대해 RMSE를 계산하여 안정된 결과 여부를 확인할 수 있습니다.
  2. 검증 데이터셋 분리:

    • 모델 훈련 후 검증 데이터셋에서의 성능을 평가하여 과적합 여부를 확인합니다.
  3. 특성 중요도 분석:

    • 랜덤 포레스트와 같은 모델은 특성 중요도를 제공하므로, 어떤 변수가 모델에 큰 영향을 미치는지 파악할 수 있습니다.

비슷한 고민을 다룬 기존의 유사한 게시물도 참고해 주세요:

이 게시물에서는 과적합 관련 조언 및 모델의 성능 평가에 대한 내용이 있으며, 이를 통해 장경수님의 상황에 더욱 잘 맞는 힌트를 얻을 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

실기시험 제출관련

0

25

1

코딩팡 장업형2 베이스 라인 인코딩 종류 질문

0

21

2

로지스틱회귀, 회귀

0

38

2

회귀 문제를 풀때 질문입니다.

0

36

1

불균형 처리 후 성능이 더 낮아졌다면,

0

49

2

실기 체험 제2유형 에러 문의

0

45

1

LIGHTGBM 으로 하면 pred값이 소수점 6자리까지 나오는게 맞나요

0

37

2

3번문제 등분산 가정

0

38

2

작업형3 target 형 변환 질문

0

31

2

[작업형1] 연습문제 섹션1 ~ 10 의 section4

0

25

3

원핫인코딩과 레이블 인코딩에서 concat

0

49

2

제2유형 질문입니다.

0

41

2

C()

0

39

2

작업형 2에서 strafity 적용 유무

0

48

2

수강 기간 연장 가능 여부 문의드립니다.

0

50

1

ols

0

39

2

2유형 작성관련 질문(일반 심화)

0

33

2

2유형 작성관련 질문

0

31

2

2유형 object컬럼 개수 다르면

0

39

2

코딩팡질문이요ㅠㅠ

0

40

2

관찰값과 기대값의 개념이 헷갈립니다.

0

20

2

작업형2 ID 컬럼 삭제 질문

0

42

2

2유형 작성관련 질문

0

28

2

memoryerror 질문

0

25

2