머신러닝 적용을 위한 Feature Engineering 질문

Question

안녕하세요. 강의 잘 듣고 있습니다 :)  머신러닝 적용을 위한 Feature Engineering 강의 15:00 에 질문이 있습니다.  여기서 casual_log, registered_log 데이터를 가지고 학습을 시킨 뒤 역함수를 활용하여서 원래값인 casual count, registered_count 예측값을 구하잖아요? 근데 처음부터 학습데이터의 casual count, registered_count 로 학습시키고 test 데이터의 casual count, registered_count 예측값을 구하면 되는 것 아닌가요?  왜 불편하게 로그데이터로 학습을 시키는지 이해가 안됩니다. 답변 부탁드립니다. 감사합니다 :)  log 값으로 학습시키는 게 아니라

Answer

안녕하세요. 답변도우미입니다.

아무래도 최종적으로 제출 했을 때, 그 수치가 RMSLE 로 계산되기 때문에요. 최대한 성능을 끌어올리기 위해서, RMSLE 값이 가장 높도록 (카운트 값으로 계산되는 값이 아니라) 예측을 수행하기 위해, 다음 값을 별도로 만들어서, 이를 기반으로 RMSLE 를 train 셋으로 각 머신러닝 모델에 최적화를 시킨 것입니다.

casual_log, registered_log

다만, 제출은 카운트로 하는 것이라서, 카운트로 변환한 것이고요. 이를 kaggle 에서 다시 RMSLE 로 계산하기 위해 변환하면, 카운트 값 자체로만 예측했을 때보다, RMSLE 값에 더 최적화되어 수치를 일정 부분 향상시킨 것이라고 보시면 어떠실까요?

감사하빈다.

허쿡

머신러닝 적용을 위한 Feature Engineering 질문

이 글과 비슷한 Q&A

문의입니다.

셀레니움 By.XPATH 를 이용한 키워드 입력 작성 질문입니다.

캐글 T1-9. Standardization

수치형 베이스라인에서 model.fit(X_tr[cols],y_tr) 질문사항