• 카테고리

    질문 & 답변
  • 세부 분야

    딥러닝 · 머신러닝

  • 해결 여부

    미해결

머신러닝 적용을 위한 Feature Engineering 질문

22.08.15 18:14 작성 조회수 118

0

안녕하세요. 강의 잘 듣고 있습니다 :)

 

 머신러닝 적용을 위한 Feature Engineering 강의 15:00 에 질문이 있습니다.

 

여기서 casual_log, registered_log 데이터를 가지고 학습을 시킨 뒤 역함수를 활용하여서 원래값인 casual count, registered_count 예측값을 구하잖아요? 근데 처음부터 학습데이터의 casual count,  registered_count 로 학습시키고 test 데이터의 casual count,  registered_count 예측값을 구하면 되는 것 아닌가요?

 

왜 불편하게 로그데이터로 학습을 시키는지 이해가 안됩니다. 답변 부탁드립니다. 감사합니다 :)

 

log 값으로 학습시키는 게 아니라 

답변 1

답변을 작성해보세요.

1

안녕하세요. 답변도우미입니다.

 

아무래도 최종적으로 제출 했을 때, 그 수치가 RMSLE 로 계산되기 때문에요. 최대한 성능을 끌어올리기 위해서,  RMSLE 값이 가장 높도록 (카운트 값으로 계산되는 값이 아니라) 예측을 수행하기 위해, 다음 값을 별도로 만들어서, 이를 기반으로 RMSLE 를 train 셋으로 각 머신러닝 모델에 최적화를 시킨 것입니다.

casual_log, registered_log

다만, 제출은 카운트로 하는 것이라서, 카운트로 변환한 것이고요. 이를 kaggle 에서 다시 RMSLE 로 계산하기 위해 변환하면, 카운트 값 자체로만 예측했을 때보다, RMSLE 값에 더 최적화되어 수치를 일정 부분 향상시킨 것이라고 보시면 어떠실까요?

감사하빈다.

허쿡님의 프로필

허쿡

질문자

2022.08.16

답변 감사합니다 :)