inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[리뉴얼] 처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화 전과정 익히기) [데이터분석/과학 Part1]

EDA/pandas/시각화로 이커머스 거래액 상세 분석1

orders에는 있느나 payments에는 없는 order_id

310

최윤정

작성한 질문수 11

0

안녕하세요, 선생님.

평균거래액과 관련해 데이터를 확인하던 중 거래 기록과 지불 기록이 일치하지 않는 order_id가 있는 것 같아 아래와 같이 확인해보았습니다.

  1. unique order_id 개수 확인
    : orders와 payments의 'order_id'에서 유니크한 값의 개수를 확인해보니 각각 99,441개와 99,440개로 나왔습니다.

print(orders['order_id'].nunique(), payments['order_id'].nunique())

results: 99441 99440

가정) orders 기록에는 있으나 payments에서 누락된 데이터가 1개 있다

  1. payments 누락 order_id 확인

missing_values = ~orders['order_id'].isin(payments['order_id'])

missing_values_in_order = orders['order_id'][missing_values]

missing_values_in_order

results: 30710    bfbd0f9bdef84302105ad712db648a6c

확인된 내용) 'bfbd0f9bdef84302105ad712db648a6c'는 oreders에는 있으나 payment에서는 누락된 'order_id'이다

  1. order_id가 'bfbd0f9bdef84302105ad712db648a6c' 인 값의 세부사항 확인

스크린샷 2023-06-13 192637.png확인된 내용) 'bfbd0f9bdef84302105ad712db648a6c' 거래는 '2016-09-15'의 order이고, order_item에서도 거래액을 확인할 수 있으나, payments 기록에서는 확인할 수 없다

Q1) 상기의 데이터 확인 과정이 적절한지 여쭤보고 싶습니다.

Q2) 이런 경우는 아마도 거래 기록은 있고, 거래 금액까지는 있으나 이후에 취소가 되었거나 등으로 payments에서 삭제된 데이터로 추측할 수 있을까요?

 

 

 

 

python pandas

답변 1

1

잔재미코딩 DaveLee

안녕하세요. 답변 도우미입니다.

우선, 정말 잘 분석하신 것 같아요. 사실 데이터 불일치 문제는 실제 데이터 분석 작업에서 자주 마주치는 문제 중 하나이고요. 이 때 데이터의 일관성과 완결성을 점검하는 것은 매우 중요하며, 이를 통해 데이터에 대한 이해도를 높이고, 분석 오류도 줄일 수 있거든요. 추가로 말씀하신 문의에 대해서도 답변을 드리면,

Q1) 상기 과정은 매우 적절하며, EDA 나 pandas 기술도 잘 쓰신 것으로 이해가 됩니다.

Q2) 이 부분은 현 데이터만으로는 정확히 알기는 어려워요. 이런 부분은 실제 현업에서는 직접 시스템 개발자와 논의를 해서 왜 이런 현상이 있는지 논의하고, 필요하면 디버깅등을 통해, 파악해야하거든요. 현재는 말씀하신 수준으로 유추하는 것이 좋을 것 같고, 해당 데이터가 단지 매우 작은 수이기 때문에, 전체 분석 결과에 큰 지장을 초래하지는 않으니, 가볍게 인지만 하고 진행해도 될 것 같습니다.

감사합니다.

Python 3 표시 없습니다.

0

58

1

강의실습 말고 강의에 대한 자료(pdf)가 없을까요?

0

70

1

구글 코랩과 아나콘다

0

84

1

강의와 다르게 오류가 뜨는 이유가 뭘까요?

0

102

1

COVID-19-master 관련 등 자료 누락

0

87

1

수업자료에 python_core_summary.ipynb 파일이 포함되어 있지 않습니다!

1

98

1

json.dumps관련된 질문

0

72

1

빅분기대비

0

112

1

파이썬으로 Plain Text 포멧 파일 다루기 연습문제 질문

0

94

1

강의자료 어디서 다운로드받나요?

0

139

1

pandas 라이브러리의 quotechar 인자에 대해 질문드립니다

0

102

1

iplot 에러 문제

1

200

1

플래그

0

76

1

플래그 라이브러리

0

86

1

CSV 파일 쓰기 다른 기법(사전 타입으로 쓰기) 관련

0

180

1

CSV 파일 읽을 때 오류

0

194

1

read() 함수 사용할 때 3번째 줄에 data로 출력 또는 print(data)로 출력 차이

0

136

1

강의 교재 및 실습 파일 제공되나요?

0

181

1

deep_data_and_visual 파일에서 에러가 납니다.

0

182

1

apply()함수

0

201

1

pandas groupby sum 질문

1

272

1

pandas_eda 자료 맨아래 heatmap 숫자가 안나옵니다

0

353

2

pandas_eda 힛맵에서 숫자가 안떠요

0

256

1

수업 자료에 pandas_basic 파일이 없습니다..!

0

277

1