인프런 커뮤니티 질문&답변

허쿡님의 프로필 이미지
허쿡

작성한 질문수

처음하는 파이썬 머신러닝 부트캠프 (쉽게! 실제 캐글 문제 풀며 정리하기) [데이터분석/과학 Part3]

머신러닝 적용을 위한 Feature Engineering

머신러닝 적용을 위한 Feature Engineering 질문

작성

·

168

0

안녕하세요. 강의 잘 듣고 있습니다 :)

 

 머신러닝 적용을 위한 Feature Engineering 강의 15:00 에 질문이 있습니다.

 

여기서 casual_log, registered_log 데이터를 가지고 학습을 시킨 뒤 역함수를 활용하여서 원래값인 casual count, registered_count 예측값을 구하잖아요? 근데 처음부터 학습데이터의 casual count,  registered_count 로 학습시키고 test 데이터의 casual count,  registered_count 예측값을 구하면 되는 것 아닌가요?

 

왜 불편하게 로그데이터로 학습을 시키는지 이해가 안됩니다. 답변 부탁드립니다. 감사합니다 :)

 

log 값으로 학습시키는 게 아니라 

답변 1

1

안녕하세요. 답변도우미입니다.

 

아무래도 최종적으로 제출 했을 때, 그 수치가 RMSLE 로 계산되기 때문에요. 최대한 성능을 끌어올리기 위해서,  RMSLE 값이 가장 높도록 (카운트 값으로 계산되는 값이 아니라) 예측을 수행하기 위해, 다음 값을 별도로 만들어서, 이를 기반으로 RMSLE 를 train 셋으로 각 머신러닝 모델에 최적화를 시킨 것입니다.

casual_log, registered_log

다만, 제출은 카운트로 하는 것이라서, 카운트로 변환한 것이고요. 이를 kaggle 에서 다시 RMSLE 로 계산하기 위해 변환하면, 카운트 값 자체로만 예측했을 때보다, RMSLE 값에 더 최적화되어 수치를 일정 부분 향상시킨 것이라고 보시면 어떠실까요?

감사하빈다.

허쿡님의 프로필 이미지
허쿡
질문자

답변 감사합니다 :)

허쿡님의 프로필 이미지
허쿡

작성한 질문수

질문하기