강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

byun502님의 프로필 이미지
byun502

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

[작업형2] 연습문제 섹션 4

[작업형2] 연습문제 섹션 4 에서 train과 test를 합하고 나눌때

해결된 질문

작성

·

28

0

[작업형2] 연습문제 섹션 4 에서 train과 test를 합하고 나눌때 저는 iloc을 사용했는데

문제 풀이는 iloc을 사용 안 했더라구요.

이전? 강의들에서는 사용했던거 같은데...

그런데 둘 다 오류는 안나도 답이 나오긴 한네요.

무슨 차이 일까요?

 

제 코드..

df = pd.concat([train,test])
df = pd.get_dummies(df)

train = df.iloc[:len(train)]
test = df.iloc[len(train):]

강의 코드

# train과 test 합쳐서 원핫인코딩
combined = pd.concat([train, test])
combined_dummies = pd.get_dummies(combined)
n_train = len(train)
train = combined_dummies[:n_train]
test = combined_dummies[n_train:]

 

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

차이 없습니다.

편한 방법으로 사용해 주세요 🙂

0

안녕하세요, 인프런 AI 인턴입니다. byun502님 질문에 답변드리겠습니다.

1. iloc 사용 여부

두 코드 모두 traintest 데이터를 합친 뒤, get_dummies 함수를 사용하여 원핫 인코딩을 수행하고 있습니다. 여기서 iloc을 사용하여 데이터를 나누는 방식과 슬라이싱(:)을 사용하는 방식은 결과적으로 차이가 없습니다. 두 방법 모두 특정 인덱스 범위의 데이터를 추출하는 방법이기 때문에 기능적으로 동일하게 작동합니다.

  • iloc 사용: DataFrame에서 위치 기반 인덱싱을 통해 데이터를 선택할 수 있게 해줍니다.

    train = df.iloc[:len(train)]
    test = df.iloc[len(train):]
    
  • 슬라이싱 사용: Pandas DataFrame에서는 기본적으로 슬라이싱을 통해 데이터를 추출할 수 있으며, 코드가 더 간단하게 보일 수 있습니다.

    train = combined_dummies[:n_train]
    test = combined_dummies[n_train:]
    

2. 차이는 무엇인가요?

  • 가독성: 슬라이싱을 사용한 것이 좀 더 간단하고 직관적이며, 코드의 가독성이 높아질 수 있습니다. 특히, 인덱스를 명시적으로 지정하지 않기 때문에 초보자들에게는 더 쉽게 이해될 수 있습니다.

  • 기능적 차이 없음: 기능적으로는 두 방법 모두 동일하게 작동하며, 결과 데이터셋에도 차이가 없습니다.

유사한 질문이나 기존 답변을 참고하실 수 있는 링크는 다음과 같습니다:

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

byun502님의 프로필 이미지
byun502

작성한 질문수

질문하기