해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 연습문제 섹션 3
아래와 같이 학습 데이터, 테스트 데이터를 합쳐서 데이터 인코딩을 진행했을 때 칼럼명이 1267개가 나오는데 모델 학습 시 시간이 많이 걸리는 요소가 되는 건가요? 칼럼이 이 정도면 많이 있는건지, 괜찮은 건지, 그 기준도 궁금합니다.이렇게 합쳐서 했을 시, 모델 학습 및 예측 시간이 37초 정도 걸리는데 (코랩에서) 시험 환경에서는 더 많이 걸릴 수도 있는 거죠?(반응속도의 차이로 인해서)랜덤포레스트 모델 이용했을 때 37초 걸리고,RMSE : 3779.6769 값이 나옵니다. lightgbm 모델을 이용했을 때 5초가 걸리고, RMSE : 4070.0473 값이 나옵니다. 만약 랜덤포레스트 모델 학습 및 예측 시간이 시험 환경에서 1분을 초과한다면 성능이 좀 떨어지더라고 lightgbm 모델을 사용해서 제출하는 것이 더 나을까요? 또한, df.iloc를 쓰지 않고, 위 그림처럼 바로 df[:len(train)]을 써도 동일한 결과가 나오는 것 같은데 맞나요?