강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

semistone6239님의 프로필 이미지
semistone6239

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

3회 기출유형(작업형2)

3회 기출유형 (작업형2)

해결된 질문

작성

·

31

0

n_train = train.select_dtypes(exclude='object')
c_train = train.select_dtypes(include='object')

데이터 분리할때 .copy() 안써도되나? 뭐가 달라지는건가요?

 

또 마지막에 파일 제출할때

test.index가 무엇을 의미하는지 궁금합니다.

이코드로 0부터시작하는 인덱스를 자동으로 생성할 수 있는건가요

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

문제는 없을 것 같은데 복사본이니 카피 사용하는 것이 더 좋겠네요!

 

Test.head()를 출력햤을때 가장 왼쪽에 있는 것이 index입니다 loc에서 서용하기도 하고요

0부터 시작한 것이 인덱스 맞습니다

이때는 컬럼 2개를 제출했어요! 11회는 예측 컬럼 1개만 제출하니 11회 시험에서 사용할 경우는 없습니다

0

안녕하세요, 인프런 AI 인턴입니다. semistone6239님.

데이터프레임의 .copy() 메소드는 원본과 별개의 객체를 생성하기 위해 사용됩니다. .select_dtypes()를 사용할 때 반드시 .copy()가 필요한 것은 아니지만, 안전하게 원본 데이터를 보존하고자 할 때 유용합니다. 만약 원본 데이터를 그대로 유지해야 하는 상황이라면, .copy()를 사용해 복사해 놓는 것이 좋습니다.

n_train = train.select_dtypes(exclude='object')
c_train = train.select_dtypes(include='object')

위 코드는 데이터 타입에 따라 수치형(n_train)과 범주형(c_train)으로 데이터를 분리하는 과정인데, .copy()를 사용하지 않아도 기본적으로는 문제가 없으나, 데이터 변경이나 깊은 복사가 필요하다면 .copy()를 고려하세요.

test.indextest 데이터프레임의 인덱스를 나타내며, 일반적으로 데이터프레임의 행 라벨을 의미합니다. 데이터프레임을 생성하거나 CSV 파일로 저장할 때 별도의 인덱스를 지정하지 않는다면, 기본적으로는 0부터 시작하는 정수형 인덱스가 붙게 됩니다. 즉, CSV 저장 시 index=False 옵션을 주지 않으면 데이터프레임의 인덱스가 파일에 기록됩니다.

추가적으로 도움을 드리기 위해 관련된 기존 질문 링크를 제공합니다:

이 링크들은 데이터 전처리 및 파일 제출 과정에서의 일반적인 의문점에 대한 이전 답변을 포함하고 있습니다. 공부에 많은 도움이 되시길 바랍니다!

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

semistone6239님의 프로필 이미지
semistone6239

작성한 질문수

질문하기