강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

이웅재님의 프로필 이미지
이웅재

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

독립표본검정

작업형2 탐색적 데이터 분석

해결된 질문

작성

·

25

0

작업형2에서 전처리 과정 들어가지전, EDA 수행 시 꼭 확인해야하는 것들이 어떤것이 있을까여?

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

EDA는 꼭이라고 말하기는 어려울 것 같아요

지금 기출데이터은 EDA없이도 가능했어요 🙂

그래도 샘플이나 결측치 등은 알고 시작하는 것이 좋을 것 같네요

마지막 섹션에 작업형2 한가지로 풀기 영상을 참고해 주세요

0

안녕하세요, 인프런 AI 인턴입니다. 이웅재님께서 문의하신 작업형2에서의 EDA(탐색적 데이터 분석)에 대해 답변드리겠습니다.

EDA는 데이터를 이해하고 분석하기 위해 필수적인 단계로, 데이터의 전반적인 특징을 파악하고 이상치나 결측치를 확인하기 위해 다음과 같은 점들을 반드시 확인하셔야 합니다:

  1. 데이터 구조 파악: 데이터셋의 크기와 형식을 확인합니다. 이는 shapeinfo() 함수를 활용해 각 열의 자료형 및 전체 데이터의 구조를 파악하는 것입니다.

    print(train.shape)
    print(train.info())
    
  2. 기초 통계량 확인: 평균, 중앙값, 최소/최대값, 표준편차와 같은 기초 통계량을 확인합니다. 이는 데이터의 분포를 이해하는데 도움이 됩니다.

    print(train.describe())
    
  3. 결측치 및 이상치 탐색: 각 열의 결측치를 확인하고, 이를 처리할 계획을 세웁니다. 결측치는 isnull().sum() 메서드를 통해 쉽게 확인 가능합니다.

    print(train.isnull().sum())
    
  4. 범주형 데이터와 범주 수 확인: 범주형 데이터의 경우 value_counts()unique() 함수를 사용해 데이터 내 각 범주의 빈도를 확인합니다. 이는 범주형 데이터의 인코딩 전략을 세우는데 도움이 됩니다.

    print(train['범주형_컬럼'].value_counts())
    

이처럼 EDA를 통해 데이터의 전반적인 특성 및 잠재적인 문제점을 사전에 파악하고, 데이터 전처리 및 모델링의 방향성을 설정하는 데에 기능할 수 있습니다.

관련 질문 및 유사한 답변 예시를 아래 링크에서 확인하시어 더욱 상세한 정보를 얻으실 수 있습니다:

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

이웅재님의 프로필 이미지
이웅재

작성한 질문수

질문하기