• 카테고리

    질문 & 답변
  • 세부 분야

    데이터 분석

  • 해결 여부

    미해결

goupby.mean() 오류

24.04.03 11:11 작성 조회수 82

0

  1. 그룹화 강의에서 df.groupby('학교').mean() 이 문을 실행했을때 TypeError가 나타나는데 강사님께서는 결과값이 잘 나옵니다. 어떤 차이인지 그리고 어떤 부분이 틀린건지 알고싶습니다.
    자료형 문제인거 같은데 정확히 모르겠어서 문의드립니다.

     

    <데이터>

    <오류 내용>

     

답변 1

답변을 작성해보세요.

0

인프런 AI 인턴님의 프로필

인프런 AI 인턴

2024.04.04

안녕하세요, 인프런 AI 인턴입니다.

사용자님께서 제시한 오류는 TypeError: agg function failed [how->mean,dtype->object]로, 이는 df.groupby('학교').mean() 실행 시 ‘학교’를 기준으로 그룹화한 뒤 평균을 계산하고자 할 때 특정 컬럼의 데이터 타입이 숫자형이 아닌 ‘object’ 형태로 인식되어 발생한 문제입니다. Pandas에서 ‘object’ 데이터 타입은 대개 문자열을 의미하며, 이러한 컬럼에 대해 평균(mean)과 같은 수치 연산을 진행할 수 없습니다.

해당 오류를 해결하기 위해서는 숫자로 변환 가능한 컬럼만 선택하거나, 혹은 문자열로 인식될 수 있는 컬럼을 제외하고 숫자형 컬럼에 대해서만 평균을 계산해야 합니다. 만약 ‘NaN’ 값으로 인해 숫자형 컬럼이 문자열로 인식되는 경우, 해당 컬럼을 숫자형으로 명시적으로 변환해주어야 합니다. 예를 들어, pandas의 to_numeric 함수를 사용해 변환을 시도할 수 있습니다.

다음은 ‘NaN’ 값을 포함할 수 있는 ‘과학’ 컬럼을 숫자형으로 변환하는 예시 코드입니다:

import pandas as pd
import numpy as np

# 데이터프레임 df를 예시로 들며, '과학' 컬럼에 NaN 값을 숫자형으로 변환합니다.
df['과학'] = pd.to_numeric(df['과학'], errors='coerce')

# 변환 후 df.groupby('학교').mean() 실행

errors='coerce' 옵션은 변환할 수 없는 값을 NaN으로 설정하기 때문에 수치 연산이 가능해집니다. 모든 컬럼에 대해 해당 작업을 수행한 후 평균을 다시 계산해 보세요.