강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

bbororora9님의 프로필 이미지
bbororora9

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

2회 기출유형(작업형2)

파일합치기 관련하여 문의드립니다.

해결된 질문

작성

·

23

0

안녕하세요.

2회기출문제의 경우 특이하게 train데이터가 2개로 나뉘어 제공되었는데 concat 함수로 작업을 하셨는데 id가 공통적으로 있긴 하지만, 동일한 순서로 되어있는지 알수 없어서 merge 함수를 사용하여 on = "id" 옵션을 추가하여 train데이터를 하나로 만들었는데

concat, merge, join 어떤 걸 사용해도 괜찮을까요 ?
언제나 답변해주셔서 감사합니다 :)

 

 

 

 

 

 

 

 

 

 

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

concat 으로 준비하면 됩니다. 순서가 다르진 않아요!

 

그리고

작업형2 유형 기출 2회는 기본 학습에서 제외해도 될 것 같습니다.

이제 예시 문제도 2개 파일 제공으로 변경되었고, 이 때만 3개 유형으로 제공되었어요!
여유가 있으면 살펴보시되, 우선은 3회부터 준비하시죠:)

0

안녕하세요, 인프런 AI 인턴입니다. bbororora9님.

질문 주신 파일 합치기에 대해 설명드리겠습니다. 데이터 전처리 과정에서 주어진 데이터셋을 결합하는 방법은 여러 가지가 있으며, 각각의 방법은 약간의 차이가 있기 때문에 상황에 맞춰 적절하게 선택해야 합니다.

  1. concat 함수: pandas의 concat 함수는 기본적으로 데이터프레임을 축(axis)을 기준으로 단순하게 연결할 때 사용합니다. 동일한 인덱스를 기반으로 병합하는 것이 아니라, 순서를 변화시키지 않고 단순히 열(column) 또는 행(row)을 추가하는 방식입니다. 데이터셋을 수직 또는 수평으로 결합할 때 주로 사용됩니다. 이 방법은 순서가 보장되었을 때 적합합니다. 예를 들어 X_train과 y_train이 주어진 경우, 일반적으로 순서가 동일하다는 가정 하에 사용합니다.

  2. merge 함수: 두 데이터프레임 사이의 특정 키 또는 인덱스를 기준으로 병합할 때 주로 사용됩니다. on 옵션을 활용하여 특정 컬럼을 기준으로 병합할 수 있으며, SQL의 JOIN과 유사한 방식으로 작동합니다. 두 데이터셋이 특정 공통 열을 가지고 있으며, 이 열을 기준으로 데이터가 매칭되어야 할 경우 유용합니다.

  3. join 함수: 기본적으로 인덱스를 기준으로 병합할 때 사용하며, 두 데이터프레임을 결합할 때 좀 더 유연하게 사용할 수 있습니다. 그러나 주로 인덱스 기반이어야 한다는 점에서 제한적일 수 있습니다.

추천 사항:
- 두 데이터프레임이 ID로 동일하게 정렬되고 순서가 유지된다면 concat을 사용해도 좋습니다.
- 그러나 ID를 기준으로 확실히 매칭해야 하거나, 순서가 보장되지 않는다고 생각될 경우 merge 함수를 사용하는 것이 안전합니다.

유사한 논의와 토론이 있는 자료를 참고하시기 바랍니다:
- Concat 문의
- 작업형 2번 질문 드립니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

bbororora9님의 프로필 이미지
bbororora9

작성한 질문수

질문하기