inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

데이터 전처리

결측치 처리 X_train데이터

해결된 질문

63

최수영

작성한 질문수 22

0

영상에서 X_train 데이터 결측치 처리 하실 때

X_train['workclass'] = X_train['workclass'].fillna(X_train['workclass'].mode()[0])
X_train['native.country'] = X_train['native.country'].fillna(X_train['native.country'].mode()[0])
X_train['occupation'] = X_train['occupation'].fillna('X')

이렇게 해주셨는데

 

m1 = X_train['workclass'].mode()[0]
m2 = X_train['native.country'].mode()[0]
X_train['workclass'] = X_train['workclass'].fillna(m1)
X_train['native.country'] = X_train['native.country'].fillna(m2)
X_train['occupation'] = X_train['occupation'].fillna('X')

이렇게 저만의 방식으로 기호 만들어서 활용해도 되나요?

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

0

퇴근후딴짓

네 더 까끔하고 좋은 방법이이요 👏👏👏

기호 -> “변수”를 사용한 방법 😀

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. 최수영님.

X_train 데이터의 결측치를 처리하는 방식에 대해 질문주셨군요. 질문 내용에 따르면, 명목형 데이터의 결측치 처리를 위해 최빈값을 이용한 두 가지 접근 방식을 제안하셨습니다.

결측치 처리에 대한 설명

명목형 데이터의 결측치는 보통 최빈값(mode)을 사용하여 채웁니다. 이는 데이터의 전형적인 값을 기준으로 결측치를 채워 데이터의 일관성을 유지하기 위함입니다. 일반적으로 mode() 함수는 데이터에서 가장 빈번하게 나타나는 값을 반환하며, pandas 라이브러리에서는 이 값을 첫 번째로 선택합니다.

  1. 강의에서 제공한 방식:

    X_train['workclass'] = X_train['workclass'].fillna(X_train['workclass'].mode()[0])
    
    • 이 방식은 X_train의 각 컬럼에 대해 최빈값을 직접 fillna()의 인자로 사용합니다.
  2. 변수에 저장 후 사용:

    m1 = X_train['workclass'].mode()[0]
    X_train['workclass'] = X_train['workclass'].fillna(m1)
    
    • 이 방식은 최빈값을 먼저 변수에 저장한 후, 그 변수를 이용해 결측치를 채웁니다. 이는 코드의 재사용성과 가독성을 높이는 방법 중 하나입니다.

두 방법 모두 본질적으로 동일한 결과를 가져옵니다. 변수에 저장하여 사용하는 방식(m1, m2)을 사용하면 코드의 가독성이 높아지고, 다른 부분에서도 이 값을 재사용할 수 있다는 장점이 있습니다. 따라서, 기호를 만들어 활용하는 방법도 충분히 실행 가능한 좋은 접근법입니다.

관련 질문 참고 자료

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

빅이시 작업형2 기초 - 케이스 1~3 관련 문의

0

5

1

데이터프레임 슬라이싱 인덱싱 질문2

0

11

1

단일표본검정, 샤피로검정, 윌콕슨검정

0

20

2

강의자료 다운로드 여부

0

18

1

문제에 첨부된 예시와 실제 출력된 샘플 비교

0

15

2

원핫 인코딩 관련

0

26

2

타겟 분리

0

22

2

Id 삭제

0

25

2

roc_auc_score 질문: 작업형2 모의문제3 09분 48초

0

23

2

원핫인코딩 코드 질문

0

22

2

map 함수 사용 필수적인가요

0

31

2

수강 기한 연장 문의드립니다.

0

39

2

34강 평가지표

0

32

2

103강 작업2형 전처리(레이블인코딩 부분) 오류

0

23

3

작업형1_section14 문의

0

20

2

작업형1_연습문제 7번 관련입니다.

0

24

2

데이터 프레임 슬라이싱 혹은 데이터 선택하기가 어렵습니다.

0

22

2

크로스 밸리데이션 질문

0

25

2

로지스틱 회귀분석 질문

0

26

2

수치형 데이터만 선택하여 푸는 경우에 오답확률이 높아질까요?

0

31

2

2유형 object 컬럼 인코딩 관련 질문

0

44

2

하이퍼파라미터 변수

0

35

2

52강 이원분산분석

0

32

2

실제시험환경에서 작업형1,2,3의 문제풀이 순서

0

39

2