[작업형2] 연습문제 섹션 4 에서 train과 test를 합하고 나눌때

Question

[작업형2] 연습문제 섹션 4 에서 train과 test를 합하고 나눌때 저는 iloc을 사용했는데 문제 풀이는 iloc을 사용 안 했더라구요. 이전? 강의들에서는 사용했던거 같은데... 그런데 둘 다 오류는 안나도 답이 나오긴 한네요. 무슨 차이 일까요? 제 코드.. df = pd.concat([train,test]) df = pd.get_dummies(df) train = df.iloc[:len(train)] test = df.iloc[len(train):] 강의 코드 # train과 test 합쳐서 원핫인코딩 combined = pd.concat([train, test]) combined_dummies = pd.get_dummies(combined) n_train = len(train) train = combined_dummies[:n_train] test = combined_dummies[n_train:]

퇴근후딴짓 · Answer

차이 없습니다. 편한 방법으로 사용해 주세요 🙂

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. byun502님 질문에 답변드리겠습니다. 1. iloc 사용 여부 두 코드 모두 train 과 test 데이터를 합친 뒤, get_dummies 함수를 사용하여 원핫 인코딩을 수행하고 있습니다. 여기서 iloc 을 사용하여 데이터를 나누는 방식과 슬라이싱( : )을 사용하는 방식은 결과적으로 차이가 없습니다. 두 방법 모두 특정 인덱스 범위의 데이터를 추출하는 방법이기 때문에 기능적으로 동일하게 작동합니다. iloc 사용 : DataFrame에서 위치 기반 인덱싱을 통해 데이터를 선택할 수 있게 해줍니다. train = df.iloc[:len(train)] test = df.iloc[len(train):] 슬라이싱 사용 : Pandas DataFrame에서는 기본적으로 슬라이싱을 통해 데이터를 추출할 수 있으며, 코드가 더 간단하게 보일 수 있습니다. train = combined_dummies[:n_train] test = combined_dummies[n_train:] 2. 차이는 무엇인가요? 가독성 : 슬라이싱을 사용한 것이 좀 더 간단하고 직관적이며, 코드의 가독성이 높아질 수 있습니다. 특히, 인덱스를 명시적으로 지정하지 않기 때문에 초보자들에게는 더 쉽게 이해될 수 있습니다. 기능적 차이 없음 : 기능적으로는 두 방법 모두 동일하게 작동하며, 결과 데이터셋에도 차이가 없습니다. 유사한 질문이나 기존 답변을 참고하실 수 있는 링크는 다음과 같습니다: pandas iloc 사용법에 대한 논의 데이터 병합 및 원핫 인코딩 후 분할 방법 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.