인프런 커뮤니티 질문&답변

깜디얏님의 프로필 이미지
깜디얏

작성한 질문수

처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화 전과정 익히기) [데이터분석/과학 Part2]

EDA/pandas/시각화로 이커머스 고객 구매 트렌드 분석1

강의 0:24초 질문

작성

·

250

0

안녕하세요.

강의 정말 잘 듣고 있습니다.

다름이 아니라, 영상의 24초 쯤에 나오는 merged_order을 만들기 위해서, orders 와 payments의 info()를 확인하여 보면,

다음과 같습니다. 저희가 merged 함수를 배울때에는 기본 default가 inner join 이라고 배웠었는데, orders의 데이터 갯수는 99441 개 이고,

payment의 데이터 갯수는 103886 개 입니다. 이때, inner join이므로, 데이터의 갯수는 99441 개를 넘을 수 없습니다.

그러나, 두개의 데이터를 merge 한 merged_order의 데이터 갯수는 100739 개 입니다. 제가 놓친 부분이 있으면 알려주시면 감사드리겠습니다.

추가적으로, null 데이터의 갯수를 세어보았더니, 0개로 반환되어집니다.

감사합니다.

답변 1

0

안녕하세요.

그것은 제가 해당 예를 붙잡고 깊게 해당 데이터까지 분석하며 보여드리지는 못하지만, order_id 를 기준으로 병합할 때, orders 에서 특정 order_id 에 해당하는 payments 행이 여러개가 있을 경우, 각 order_id 마다 병합이 되어, 기존 orders 행 숫자보다 많아질 수 있을 것 같습니다. 

이와 유사한 현상에 대해 pandas 라이브러리로 실제 데이터 전처리하기3 의 질문/답변란에 하나의 예를 분석해서 최대한 상세히 설명을 드렸는데요. 이 부분도 한 번 확인해보시면 어떨까요?

감사합니다.

깜디얏님의 프로필 이미지
깜디얏

작성한 질문수

질문하기