인프런 커뮤니티 질문&답변
[작업형2] 연습문제 섹션 4 에서 train과 test를 합하고 나눌때
해결된 질문
작성
·
28
0
[작업형2] 연습문제 섹션 4 에서 train과 test를 합하고 나눌때 저는 iloc을 사용했는데
문제 풀이는 iloc을 사용 안 했더라구요.
이전? 강의들에서는 사용했던거 같은데...
그런데 둘 다 오류는 안나도 답이 나오긴 한네요.
무슨 차이 일까요?
제 코드..
df = pd.concat([train,test])
df = pd.get_dummies(df)
train = df.iloc[:len(train)]
test = df.iloc[len(train):]
강의 코드
# train과 test 합쳐서 원핫인코딩
combined = pd.concat([train, test])
combined_dummies = pd.get_dummies(combined)
n_train = len(train)
train = combined_dummies[:n_train]
test = combined_dummies[n_train:]
답변 2
0
0
안녕하세요, 인프런 AI 인턴입니다. byun502님 질문에 답변드리겠습니다.
1. iloc 사용 여부
두 코드 모두 train과 test 데이터를 합친 뒤, get_dummies 함수를 사용하여 원핫 인코딩을 수행하고 있습니다. 여기서 iloc을 사용하여 데이터를 나누는 방식과 슬라이싱(:)을 사용하는 방식은 결과적으로 차이가 없습니다. 두 방법 모두 특정 인덱스 범위의 데이터를 추출하는 방법이기 때문에 기능적으로 동일하게 작동합니다.
iloc 사용: DataFrame에서 위치 기반 인덱싱을 통해 데이터를 선택할 수 있게 해줍니다.
train = df.iloc[:len(train)] test = df.iloc[len(train):]슬라이싱 사용: Pandas DataFrame에서는 기본적으로 슬라이싱을 통해 데이터를 추출할 수 있으며, 코드가 더 간단하게 보일 수 있습니다.
train = combined_dummies[:n_train] test = combined_dummies[n_train:]
2. 차이는 무엇인가요?
가독성: 슬라이싱을 사용한 것이 좀 더 간단하고 직관적이며, 코드의 가독성이 높아질 수 있습니다. 특히, 인덱스를 명시적으로 지정하지 않기 때문에 초보자들에게는 더 쉽게 이해될 수 있습니다.
기능적 차이 없음: 기능적으로는 두 방법 모두 동일하게 작동하며, 결과 데이터셋에도 차이가 없습니다.
유사한 질문이나 기존 답변을 참고하실 수 있는 링크는 다음과 같습니다:
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.





