-
카테고리
-
세부 분야
데이터 분석
-
해결 여부
미해결
EDA/pandas/시각화로 이커머스 고객 상세 분석하기 강의 질문
23.08.07 01:08 작성 23.08.07 01:12 수정 조회수 228
0
실제 이 강의의 초반3분 안에 customers['customer_unique_id'].value_counts().max() 을 실행하면 17이라는 값이 나왔고 customers['customer_id'].value_counts().max()를 실행하면 1이라는 값이 나와 customer_id에는 중복이 없고 customer_unique_id에는 중복이 있음을 확인했었습니다.
그런데 본 강의의 3분정도에서 customers['customer_id'].nunique() 을 출력하면 99441이 나오고 customers['customer_unique_id'].nunique()을 출력하면 96096이 나오는데
customer_unique_id에서 중복된 것들을 다 제외시키면 customer_id의 값이 나와야 되는것 아닌지가 궁금합니다. 어떻게 이 customers['customer_unique_id'].nunique() 구문의 값이 99441이 아닌 96096이 나오게 되는지 궁금합니다. 이러면 customer_id에도 중복이 있다는 소리 아닌가요?
강사님께서 강의중에 96096이라는 숫자를 가르키시며 잘못작성하셨다고 했는데 제가 실행해도 96096이라는 숫자가 나와서요,,,ㅠ
처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화까지 전과정 기본 익히기) [데이터과학 Part1]
EDA/pandas/시각화로 이커머스 고객 상세 분석하기
강의실 바로가기
답변을 작성해보세요.
0
잔재미코딩 DaveLee
지식공유자2023.08.08
안녕하세요. 답변 도우미입니다.
테스트가 조금 복잡하긴 해서, 전에 분석을 해서, 설명을 드린 것이 기억이 조금 흐릿하긴 한데요.
데이터 분석 결과로만 봤을 때 customer_id 는 중복은 안되고, 99441개의 데이터가 있는 것으로 이해가 되고요. customer_unique_id 는 중복이 일부 있고, 유니크한 ID 는 96096 개가 있다고 확인이 됩니다. 둘다 전체 카운트는 다음과 같이 동일하고요. 이 중에 customer_unique_id 는 중복이 있다보니, 유니크한 ID 는 96096 개밖에 안된다고 확인이 됩니다. 감사합니다.
print (customers['customer_id'].count())
print (customers['customer_unique_id'].count())
99441
99441
답변 1