해결된 질문
작성
·
128
0
스케일링을 할 때, minmax scaler랑 standard scaler 는 train,test data의 columns에 스케일링을 하는데 log scaler할 때는 값이 커보여서 내지는 편차가 있어보여서(?) log scaling에 적합해 보이는 타겟인 ['charges'] column에만 하잖아요,
근데 rmse값은 모든 columns에 대한 값인데 하나의 column을 log scaling했다고 np.exp를 씌우는게 왜 괜찮은지에 대해서 궁금합니다..
해당 강의에서는 train data에만 log scaling을 했는데 왜 얘만 test data에는 안 하는거죠? minmax랑 standard할 때는 train, test 둘 다 했는데 말이죠..
X_train, Y_train, x_test 세 개가 주어지는 경우와 train, test가 주어지는 경우의 차이는 train data의 column에서 타겟을 뽑아 새로 y_train 같은 존재를 제가 만든다는 점만 다르다고 생각하면 될까요? 이거 말고 주의해야 될 사항이 있나 궁금합니다.
이상입니다 !
+ 실기 대비용으로 본 강의 탑승한 거 만족하면서 강의 잘 듣고 있습니다 ~ 감사합니다ㅎㅎ
답변 1
1
np.exp(pred)는 모든 값에 대한 역로그 입니다. 변환된 값을 한번 출력해서 눈으로 확인해보면 좋을 것 같아요! print(np.exp(pred))
test데이터에는 log를 취할 target(y_test)가 없습니다. train에서 target(y_train)만 로그를 적용했어요.
더불어 로그는 심화학습으로 설명은 했지만 실수의 여지가 있을 것 같아요! 실수라고 함은 마지막 제출 파일에 역로그를 취하지 않는 등의 실수가 생길 수 있어 이 내용은 심화학습이니 어렵게 느껴진다면 하지 않아도 괜찮습니다. (성능이 향상된다는 보장도 없고, 아직까진 40점의 기준이 높진 않아요)
네 맞습니다. train안에 y_train이 포함되어 있어요. 기출2회를 제외하고는 모두 2개 데이터가 주어졌어요
추가적으로 질문이 있거나 제가 질문을 잘못이해해 답변한 부분이 있다면 댓글 달아주세요 :) 응원합니다.