inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[리뉴얼] 처음하는 파이썬 머신러닝 부트캠프 (쉽게! 실제 캐글 문제 풀며 정리하기) [데이터분석/과학 Part2]

머신러닝 적용을 위한 Feature Engineering

머신러닝 적용을 위한 Feature Engineering 질문

219

허쿡

작성한 질문수 51

0

안녕하세요. 강의 잘 듣고 있습니다 :)

 

 머신러닝 적용을 위한 Feature Engineering 강의 15:00 에 질문이 있습니다.

 

여기서 casual_log, registered_log 데이터를 가지고 학습을 시킨 뒤 역함수를 활용하여서 원래값인 casual count, registered_count 예측값을 구하잖아요? 근데 처음부터 학습데이터의 casual count,  registered_count 로 학습시키고 test 데이터의 casual count,  registered_count 예측값을 구하면 되는 것 아닌가요?

 

왜 불편하게 로그데이터로 학습을 시키는지 이해가 안됩니다. 답변 부탁드립니다. 감사합니다 :)

 

log 값으로 학습시키는 게 아니라 

pandas 머신러닝 배워볼래요? python kaggle

답변 1

1

잔재미코딩 DaveLee

안녕하세요. 답변도우미입니다.

 

아무래도 최종적으로 제출 했을 때, 그 수치가 RMSLE 로 계산되기 때문에요. 최대한 성능을 끌어올리기 위해서,  RMSLE 값이 가장 높도록 (카운트 값으로 계산되는 값이 아니라) 예측을 수행하기 위해, 다음 값을 별도로 만들어서, 이를 기반으로 RMSLE 를 train 셋으로 각 머신러닝 모델에 최적화를 시킨 것입니다.

casual_log, registered_log

다만, 제출은 카운트로 하는 것이라서, 카운트로 변환한 것이고요. 이를 kaggle 에서 다시 RMSLE 로 계산하기 위해 변환하면, 카운트 값 자체로만 예측했을 때보다, RMSLE 값에 더 최적화되어 수치를 일정 부분 향상시킨 것이라고 보시면 어떠실까요?

감사하빈다.

0

허쿡

답변 감사합니다 :)

자료 공유 질문

0

70

1

Ascii 에러 관련하여 질문드립니다

0

97

1

고차원 데이터 질문

0

84

1

세션4 범주형 데이터 분석 패턴 강의 질문

0

217

2

pandas 2.2.2, xgboost 2.1.3 에러 해결 방법

0

234

1

sklearn v1.5.1

0

176

1

머신러닝 적용을 위한 Feature Engineering 작업1

0

185

2

missingno 대체

0

174

1

scikit-learn 1.5.1 matplotlib 3.9.2

0

136

1

환불문의

0

273

1

자료공유를 받으려고 하는데 에러가 납니다.

0

169

1

iplot에서 항상 에러나는 분 안계신가용?

0

233

1

사망 여부 영향 가능성

0

148

1

섹션4_인코딩 이해하고 적용해보기(원핫인코딩) 질문

0

195

1

df.corr(numeric_only=True).iplot() 에러 해결 어떻게 해야되나요?

0

288

1

주피터 노트북 201_REGRESSION_BIKE_SHARING_MODELS 중 질문

0

252

1

3강 강의 자료 코드 관련 질문입니다

1

344

1

맥 사용자 mkdir .kaggle 했는데 파일이 안만들어집니다.

0

427

1

Bayesian Optimization에서 optimizer.maximize()함수를 더이상 지원 안한다고 합니다.

0

887

2

Bayesian Optimization LightGBM 적용

0

466

2

하이퍼 파라미터 튜닝 기법 적용하기 실행값이 미묘하게 달라요.

1

347

1

중복된 코드 수정 요청 - 자전거 공유 문제 이해와 EDA3

0

218

1

강의 중 에러 질문

0

752

1

cross_val_score 에러

0

470

1