머신러닝 적용을 위한 Feature Engineering 질문
219
작성한 질문수 51
안녕하세요. 강의 잘 듣고 있습니다 :)
머신러닝 적용을 위한 Feature Engineering 강의 15:00 에 질문이 있습니다.
여기서 casual_log, registered_log 데이터를 가지고 학습을 시킨 뒤 역함수를 활용하여서 원래값인 casual count, registered_count 예측값을 구하잖아요? 근데 처음부터 학습데이터의 casual count, registered_count 로 학습시키고 test 데이터의 casual count, registered_count 예측값을 구하면 되는 것 아닌가요?
왜 불편하게 로그데이터로 학습을 시키는지 이해가 안됩니다. 답변 부탁드립니다. 감사합니다 :)
log 값으로 학습시키는 게 아니라
답변 1
1
안녕하세요. 답변도우미입니다.
아무래도 최종적으로 제출 했을 때, 그 수치가 RMSLE 로 계산되기 때문에요. 최대한 성능을 끌어올리기 위해서, RMSLE 값이 가장 높도록 (카운트 값으로 계산되는 값이 아니라) 예측을 수행하기 위해, 다음 값을 별도로 만들어서, 이를 기반으로 RMSLE 를 train 셋으로 각 머신러닝 모델에 최적화를 시킨 것입니다.
casual_log, registered_log
다만, 제출은 카운트로 하는 것이라서, 카운트로 변환한 것이고요. 이를 kaggle 에서 다시 RMSLE 로 계산하기 위해 변환하면, 카운트 값 자체로만 예측했을 때보다, RMSLE 값에 더 최적화되어 수치를 일정 부분 향상시킨 것이라고 보시면 어떠실까요?
감사하빈다.
자료 공유 질문
0
70
1
Ascii 에러 관련하여 질문드립니다
0
97
1
고차원 데이터 질문
0
84
1
세션4 범주형 데이터 분석 패턴 강의 질문
0
217
2
pandas 2.2.2, xgboost 2.1.3 에러 해결 방법
0
234
1
sklearn v1.5.1
0
176
1
머신러닝 적용을 위한 Feature Engineering 작업1
0
185
2
missingno 대체
0
174
1
scikit-learn 1.5.1 matplotlib 3.9.2
0
136
1
환불문의
0
273
1
자료공유를 받으려고 하는데 에러가 납니다.
0
169
1
iplot에서 항상 에러나는 분 안계신가용?
0
233
1
사망 여부 영향 가능성
0
148
1
섹션4_인코딩 이해하고 적용해보기(원핫인코딩) 질문
0
195
1
df.corr(numeric_only=True).iplot() 에러 해결 어떻게 해야되나요?
0
288
1
주피터 노트북 201_REGRESSION_BIKE_SHARING_MODELS 중 질문
0
252
1
3강 강의 자료 코드 관련 질문입니다
1
344
1
맥 사용자 mkdir .kaggle 했는데 파일이 안만들어집니다.
0
427
1
Bayesian Optimization에서 optimizer.maximize()함수를 더이상 지원 안한다고 합니다.
0
887
2
Bayesian Optimization LightGBM 적용
0
466
2
하이퍼 파라미터 튜닝 기법 적용하기 실행값이 미묘하게 달라요.
1
347
1
중복된 코드 수정 요청 - 자전거 공유 문제 이해와 EDA3
0
218
1
강의 중 에러 질문
0
752
1
cross_val_score 에러
0
470
1





