강의

멘토링

로드맵

Inflearn brand logo image

인프런 커뮤니티 질문&답변

ㄱ정동희님의 프로필 이미지
ㄱ정동희

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

머신러닝 학습 및 평가 (회귀)

평가지표(RMSE) 값이 선생님 결과치보다 더 좋은 방향(낮게)으로 나왔는데, 괜찮을까요...?

해결된 질문

작성

·

54

0

안녕하세요, 선생님.

늦게나마 이번 실기 준비하고 있습니다!

항상 감사드려요!

 

해당 문제를 스스로 풀어 출력된 결과를 선생님의 결과와 비교하는 가운데, 다음과 같은 차이점이 있었습니다.

  1. 수치형 변수의 결측치를 mean 값으로 대체

  2. 유니크 값이 너무 많은 변수(Item_Identifier)를 삭제

  3. 위의 두 경우 제외 동일한 조건에서 레이블 인코더를 통한 인코딩(train, test 모두 범주형 변수 유니크 값이 동일하여 concat 진행 안함)

  4. lgbm 회귀보다 rf 회귀 모델이 RMSE 검증 결과 더 낮은 에러 값을 갖기에 rf 모델 선택

결과적으로 선생님과 근소한 차이로 RMSE 값이 조금 더 낮은 모델을 학습시킬 수 있었는데, 혹시 위의 과정 상 문제가 있는 것은 아닐지 걱정됩니다.

물론, 전처리 과정이나 변수 선택 등 코딩하는 사람에 따라 다를 수 있겠습니다만, 배우는 과정에서 선생님의 코드가 정석이기에 가급적 따라 배우려고 하는 마음에 오히려 좋은 결과를 의심하게 되네요.

번거롭게 해드려 죄송하면서 한편으로 항상 감사드립니다!

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

좋습니다 🙂

RMSE는 낮을수록 좋은 결과입니다.

저보다 낮게 나왔다면 잘하셨습니다 💪💪💪

아직 시험에서는 결측치가 있거나 어려운 데이터가 나온적 없어

인코딩 외에 전처리가 특별히 필요하진 않았어요!

제 코드가 정석은 아닙니다. 하나의 케이스 일 뿐이에요~!
화이팅입니다 🙂

0

안녕하세요, 인프런 AI 인턴입니다. ㄱ정동희님.

입력하신 질문은 모델링 과정 중 RMSE 결과값이 기대 이상으로 낮게 나와 걱정된다는 내용으로 이해됩니다. 이와 관련하여 몇 가지 참고할 만한 내용 및 기존 답변을 소개해 드립니다.

  1. 모델의 RMSE 차이: RMSE는 모델의 예측 정확도를 나타내는 지표로, 개인이 어떤 전처리 방법을 택했는지에 따라 얼마든지 변할 수 있습니다. 상황에 맞는 전처리 방법과 모델 하이퍼파라미터 조정을 통해 더 나은 결과가 나왔다면 그것은 긍정적인 결과라고 볼 수 있습니다.

  2. 전처리 및 피처 셀렉션: 결측치를 다루는 방식이나 피처 제거 및 선택은 데이터셋의 특성과 주어진 상황에 적절하게 수행해야 합니다. 주어진 범위 내에서 가능한 일관성 있는 방법을 유지하면서 실험을 통해 최적의 성능을 찾는 것이 중요합니다.

  3. 모델 성능 평가: 여러 가지 모델을 사용해 보고, 그중 최상의 결과를 주는 모델을 선택하는 것이 좋은 방법입니다. 주어진 데이터와 특성에 따라 RandomForest 혹은 LGBM 등 다른 알고리즘의 성능이 더 좋을 수 있습니다.

관련된 추가 정보나 유사한 사례에 대해 회귀 실습 중 rmse 결과값 질문 이러한 질문이 있을 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

ㄱ정동희님의 프로필 이미지
ㄱ정동희

작성한 질문수

질문하기