[교재문의]p.192쪽 풀이 중 궁금점

Question

안녕하세요 제가 책보면서 공부중인데 코딩을 할 때 아래와 같이 코딩을 하다보니 에러가 뜨더라구요 result = df['차이'].min()에서 ['차이'] 이거를 빼고 하니까 되던데... 컬럼명을 넣고 안넣고에서 어떤 차이가 있는건가요..? import pandas as pd df = pd.read_csv("delivery_time.csv") # df.info() df['실제도착시간']=pd.to_datetime(df['실제도착시간']) df['주문시간']=pd.to_datetime(df['주문시간']) # df.info() df['차이']=(df['실제도착시간']-df['주문시간']).dt.total_seconds()/60 df = df.groupby('앱종류')['차이'].mean() df result = df['차이'].min() print(result)

퇴근후딴짓 · Answer

컬럼이 1개라 빼도 동일합니다 🙂 굿굿 !! 컬럼이 여러개 일때 필요해요

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. jkim8109님. 질문해주신 내용은 pandas 의 데이터프레임 구문과 관련된 문제로 보입니다. pandas에서 특정 컬럼의 최소값을 구할 때, 시리즈 객체로 작업을 하고 계신 듯합니다. 질문 요약 및 설명 df 에서 groupby 를 사용하여 &lsquo;앱종류&rsquo; 별로 &lsquo;차이&rsquo;를 평균 계산했기 때문에 df['차이'] 는 이미 그룹화된 평균값들로 이뤄진 시리즈가 됩니다. 따라서 result = df['차이'].min() 대신 result = df.min() 이라고 직접 시리즈에 대해 min() 함수를 호출하여 최소값을 구할 수 있습니다. 코드 분석 groupby 이후 df 는 새로운 객체가 되며, 각 &lsquo;앱종류&rsquo;에 대한 평균값을 포함하고 있습니다. 그래서 &lsquo;차이&rsquo;라는 컬럼은 존재하지 않고, &lsquo;앱종류&rsquo;를 인덱스로 하는 시리즈가 만들어집니다. 즉, 이 상태에서 df['차이'] 는 이미 &lsquo;차이&rsquo; 컬럼을 사용한 그룹 연산 결과를 구한 것이므로, 컬럼 접근이 필요하지 않습니다. 관련 자료 찾기 비슷한 사례를 다룬 게시물이 있어 공유드립니다: - &ldquo;캐글 T1-35번 (2)문제 질문&rdquo; : pandas에서 다양한 연산을 적용할 때 데이터프레임과 시리즈의 차이로 인해 발생할 수 있는 혼동에 대한 질문입니다. jkim8109님께서 마주하신 상황처럼 데이터처리 중 그룹화된 데이터에서의 컬럼 접근 오류는 자주 경험할 수 있는 부분입니다. 이 게시글을 통해 비슷한 사례를 참고하실 수 있을 것입니다. 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.