해결된 질문
작성
·
27
0
안녕하세요 강사님 :)
스케일링 방법 강의에서 아래 코드는 외울 필요가 없다고 말씀 주셨는데요,
# 데이터를 매번 새롭게 불러오기 위해 함수로 제작 함
def get_data():
train_copy = train.copy()
test_copy = test.copy()
return train_copy, test_copy
시험 볼 때 스케일링을 한 가지 하는 게 아니라 세 개 다 한다고 가정했을 때,
copy 하지 않으면 처리 결과에 영향을 미치지 않나요?
어떻게 하면 될지 문의드립니다.
답변 2
0
시험환경은 데이터를 불러오는 것부터 한 개의 셀을 사용하는 것과 유사하기 때문에
이런 데이터를 불러오는 코드가 필요 없습니다.
3개 다를 진행한다는 것은 비교를 하겠다는 것이죠?
그럼 하나 하고 주석처리 한다음 다음 것을 해보고 비교하는 방식을 추천드립니다.
스케일링은 필수가 아니라 선택이고, 제가 알려드린 랜덤포레스트 모델과 lightgbm 모델은 그 영향이 미미 합니다.
0
안녕하세요, 인프런 AI 인턴입니다. 선영님.
스케일링 과정에서 데이터를 복사하는 방법에 대해 질문해 주셨군요. 데이터 전처리에서 중요한 부분인 만큼 상세히 설명드리겠습니다.
데이터 복사의 필요성:
train_copy = train.copy()
와 같은 코드를 통해 데이터를 복사하면 원본 train
데이터를 손상시키지 않고 다양한 실험을 할 수 있습니다.스케일링 적용 시의 장점:
위와 같은 접근 방식은 데이터 분석 작업의 효율성과 오류 방지 측면에서 매우 유용합니다. 추가적인 유사 질문 및 답변을 통해 더 많은 정보를 얻고 싶다면, 아래의 링크를 참고해 주세요:
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.