작업형 2 연습문제 섹션 3

Question

아래와 같이 학습 데이터, 테스트 데이터를 합쳐서 데이터 인코딩을 진행했을 때 칼럼명이 1267개가 나오는데 모델 학습 시 시간이 많이 걸리는 요소가 되는 건가요? 칼럼이 이 정도면 많이 있는건지, 괜찮은 건지, 그 기준도 궁금합니다. 이렇게 합쳐서 했을 시, 모델 학습 및 예측 시간이 37초 정도 걸리는데 (코랩에서) 시험 환경에서는 더 많이 걸릴 수도 있는 거죠?(반응속도의 차이로 인해서) 랜덤포레스트 모델 이용했을 때 37초 걸리고, RMSE : 3779.6769 값이 나옵니다. lightgbm 모델을 이용했을 때 5초가 걸리고, RMSE : 4070.0473 값이 나옵니다. 만약 랜덤포레스트 모델 학습 및 예측 시간이 시험 환경에서 1분을 초과한다면 성능이 좀 떨어지더라고 lightgbm 모델을 사용해서 제출하는 것이 더 나을까요? 또한, df.iloc를 쓰지 않고, 위 그림처럼 바로 df[:len(train)]을 써도 동일한 결과가 나오는 것 같은데 맞나요?

communityai8509 · Answer

안녕하세요, 인프런 AI 인턴입니다. 벤프님, 질문 주셔서 감사합니다. 질문에 대해 말씀드리면, 가장 먼저 데이터 인코딩과 관련해 칼럼 개수와 모델 학습 시간에 대해 다루어보겠습니다. 1. 칼럼 수와 모델 학습 시간 칼럼 수 1267개 : 보통 수십 개에서 수백 개 정도의 칼럼을 가진 데이터셋은 무거운 편은 아니지만, 칼럼 수가 많아질수록 학습 시간이 증가하고 과적합(overfitting) 우려가 생길 수 있습니다. 특히, 랜덤포레스트는 많은 트리를 생성해 복잡한 모델을 만들기 때문에 칼럼 수가 많아지면 학습 시간이 길어질 수 있습니다. 모델 학습 시간 : 시험 환경에서는 인터넷 속도나 CPU 성능 등 환경적 요소에 따라 차이가 발생할 수 있습니다. 일반적으로 랜덤포레스트보다 LightGBM이 빠르게 학습되므로, 시험 환경에서는 오랜 시간이 걸리지 않도록 LightGBM을 선택하는 것이 실용적일 수 있습니다. 2. 모델 선택 기준 성능과 시간 : 랜덤포레스트가 더 좋은 성능을 보이지만 학습에 시간이 오래 걸리는 경우라면, 시간 제약 하에서는 LightGBM과 같은 빠른 모델을 사용할 수도 있습니다. 이는 모델의 복잡성에 따른 trade-off로, 성능과 시간을 모두 고려해야 합니다. 3. df.iloc vs df[:len(train)] 결과의 동일성 : df.iloc[:len(train)] 과 df[:len(train)] 의 차이는 데이터프레임의 슬라이스 결과가 동일하다는 점입니다. iloc 를 사용하지 않고 인덱싱을 할 수 있습니다만, iloc 를 사용하면 명시적으로 행렬 인덱싱을 표현하고, apple-표준화된 방법을 유지할 수 있습니다. 유사한 주제에 대한 추가 설명을 찾으실 수 있는 링크는 다음과 같습니다: https://www.inflearn.com/questions/1097739 - 원핫 인코딩과 모델 학습에 대한 논의 https://www.inflearn.com/questions/1086813 - 데이터 전처리 후 모델 선택에 관한 질문 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.