데이터 전처리2 강의 질문

Question

안녕하세요 강사님 :) 스케일링 방법 강의에서 아래 코드는 외울 필요가 없다고 말씀 주셨는데요, # 데이터를 매번 새롭게 불러오기 위해 함수로 제작 함 def get_data(): train_copy = train.copy() test_copy = test.copy() return train_copy, test_copy 시험 볼 때 스케일링을 한 가지 하는 게 아니라 세 개 다 한다고 가정했을 때, copy 하지 않으면 처리 결과에 영향을 미치지 않나요? 어떻게 하면 될지 문의드립니다.

퇴근후딴짓 · Answer

시험환경은 데이터를 불러오는 것부터 한 개의 셀을 사용하는 것과 유사하기 때문에 이런 데이터를 불러오는 코드가 필요 없습니다. 3개 다를 진행한다는 것은 비교를 하겠다는 것이죠? 그럼 하나 하고 주석처리 한다음 다음 것을 해보고 비교하는 방식을 추천드립니다. 스케일링은 필수가 아니라 선택이고, 제가 알려드린 랜덤포레스트 모델과 lightgbm 모델은 그 영향이 미미 합니다.

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. 선영님. 스케일링 과정에서 데이터를 복사하는 방법에 대해 질문해 주셨군요. 데이터 전처리에서 중요한 부분인 만큼 상세히 설명드리겠습니다. 데이터 복사와 전처리의 관계 데이터 복사의 필요성 : 일반적으로 데이터를 복사하는 이유는 원본 데이터에 대한 안전성을 보장하기 위함입니다. 전처리 과정에서 실수를 하거나 여러 번의 실험을 위해 같은 데이터를 반복적으로 사용해야 할 경우, 원본 데이터를 보호하기 위해 복사본을 사용하는 것이 좋습니다. train_copy = train.copy() 와 같은 코드를 통해 데이터를 복사하면 원본 train 데이터를 손상시키지 않고 다양한 실험을 할 수 있습니다. 스케일링 적용 시의 장점 : 스케일링을 적용할 때 데이터를 복사하면 여러 스케일링 방법들을 실험하면서 최적의 방법을 선택할 수 있습니다. 세 가지 스케일링을 순차적으로 적용하려고 할 때, 매번 원본 데이터에서 시작할 수 있으므로 결과에 영향을 미치지 않고 비교 실험을 할 수 있습니다. 복사본을 사용하면, 스케일링이 잘못 적용되거나 코드가 오류를 발생시켰을 때 쉽게 다시 시작할 수 있습니다. 시험 환경에서의 전략 각 스케일링 방법을 독립적으로 테스트 : 시험 중 복사본을 사용하면 여러 스케일링 기법을 독립적으로 실험할 수 있으며, 각 실험의 성공 여부를 판단한 후 가장 적합한 방법을 선택할 수 있습니다. 원본 데이터 보호 : 시험 환경에서의 코드 실행 시 데이터의 변형을 피하기 위해 항상 복사본을 생성하는 습관을 들이면 좋습니다. 위와 같은 접근 방식은 데이터 분석 작업의 효율성과 오류 방지 측면에서 매우 유용합니다. 추가적인 유사 질문 및 답변을 통해 더 많은 정보를 얻고 싶다면, 아래의 링크를 참고해 주세요: 데이터 전처리시 궁금점! - 데이터 복사와 전처리 방법에 대한 다양한 해법을 다루고 있습니다. 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.