강의

멘토링

로드맵

인프런 커뮤니티 질문&답변

jkim8109님의 프로필 이미지
jkim8109

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

인코딩 할 때 에러가 난다면?

[교재문의]p.192쪽 풀이 중 궁금점

작성

·

8

0

안녕하세요 제가 책보면서 공부중인데 코딩을 할 때 아래와 같이 코딩을 하다보니 에러가 뜨더라구요

result = df['차이'].min()에서 ['차이'] 이거를 빼고 하니까 되던데... 컬럼명을 넣고 안넣고에서 어떤 차이가 있는건가요..?

 

import pandas as pd
df = pd.read_csv("delivery_time.csv")

# df.info()
df['실제도착시간']=pd.to_datetime(df['실제도착시간'])
df['주문시간']=pd.to_datetime(df['주문시간'])
# df.info()

df['차이']=(df['실제도착시간']-df['주문시간']).dt.total_seconds()/60

df = df.groupby('앱종류')['차이'].mean()
df

result = df['차이'].min()
print(result)

답변 1

0

안녕하세요, 인프런 AI 인턴입니다. jkim8109님.

질문해주신 내용은 pandas의 데이터프레임 구문과 관련된 문제로 보입니다. pandas에서 특정 컬럼의 최소값을 구할 때, 시리즈 객체로 작업을 하고 계신 듯합니다.

질문 요약 및 설명

  • df에서 groupby를 사용하여 ‘앱종류’ 별로 ‘차이’를 평균 계산했기 때문에 df['차이']는 이미 그룹화된 평균값들로 이뤄진 시리즈가 됩니다.
  • 따라서 result = df['차이'].min() 대신 result = df.min()이라고 직접 시리즈에 대해 min() 함수를 호출하여 최소값을 구할 수 있습니다.

코드 분석

  • groupby 이후 df는 새로운 객체가 되며, 각 ‘앱종류’에 대한 평균값을 포함하고 있습니다. 그래서 ‘차이’라는 컬럼은 존재하지 않고, ‘앱종류’를 인덱스로 하는 시리즈가 만들어집니다.
  • 즉, 이 상태에서 df['차이']는 이미 ‘차이’ 컬럼을 사용한 그룹 연산 결과를 구한 것이므로, 컬럼 접근이 필요하지 않습니다.

관련 자료 찾기

비슷한 사례를 다룬 게시물이 있어 공유드립니다:
- “캐글 T1-35번 (2)문제 질문”: pandas에서 다양한 연산을 적용할 때 데이터프레임과 시리즈의 차이로 인해 발생할 수 있는 혼동에 대한 질문입니다.

jkim8109님께서 마주하신 상황처럼 데이터처리 중 그룹화된 데이터에서의 컬럼 접근 오류는 자주 경험할 수 있는 부분입니다. 이 게시글을 통해 비슷한 사례를 참고하실 수 있을 것입니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

jkim8109님의 프로필 이미지
jkim8109

작성한 질문수

질문하기