inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

데이터 전처리

dropna와 drop의 차이가 궁금합니다.

해결된 질문

1777

김수현

작성한 질문수 7

0

#특정컬럼에 결측치가 있으면 데이터(행) 삭제 subset=['native.country']df = X_train.dropna(subset=['native.country']) # 결측치가 많은 특정 컬럼 삭제 drop(['workclass'], axis=1) df=X_train.drop(['workclass'], axis=1)  언제 drop을 쓰고, 언제 dropna를 쓰는지 궁금합니다. 

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 1

5

퇴근후딴짓

dropdropna 함수는 모두 pandas 라이브러리에서 데이터프레임을 다룰 때 사용되는 함수입니다. 두 함수의 용도와 사용 시나리오는 다음과 같습니다:

1. `dropna` 함수:

데이터프레임에서 결측치가 포함된 행이나 열을 제거하는 데 사용됩니다.

- df.dropna(): 기본적으로 어떤 행에든 하나 이상의 결측치가 있으면 해당 행을 제거

- df.dropna(axis=1): 어떤 열에든 하나 이상의 결측치가 있으면 해당 열을 제거

- df.dropna(subset=['컬럼명']): 특정 열(여기서는 '컬럼명')에 결측치가 있는 행만 제거

2. `drop` 함수:

특정 행이나 열을 데이터프레임에서 제거하는 데 사용됩니다. 이 함수는 결측치 여부와 무관하게 지정된 행이나 열을 삭제합니다.

- df.drop(['컬럼명'], axis=1): 지정된 열(여기서는 '컬럼명')을 제거

- df.drop([index], axis=0): 지정된 행(여기서는 'index')을 제거

 

dropna는 결측치를 기준으로 행이나 열을 제거하는 데 사용되며, drop은 특정 행이나 열을 명시적으로 지정하여 제거하는 데 사용됩니다. 결측치 처리에 집중할 때는 dropna를 사용하고, 데이터의 구조를 조정하거나 불필요한 부분을 제거할 때는 drop을 사용합니다.

강의 자료 16~39 관련

0

13

2

데이터 전처리 시 문의

0

30

2

random_state 값

0

23

2

인코딩 사용여부

0

26

2

인코딩 전 데이터 합치기 질문드립니다!

0

29

1

섹션5. 회귀 강의 관련 질문드립니다

0

35

2

수강기간연장 문의드립니다

0

42

2

수강 연장 문의

0

43

2

label 인코딩 에러 발생 원인

0

38

2

LabelEncoding 시 train data 학습(fit_transform, transform)

0

38

2

로지스틱 회귀분석은 옛날거 밖에 없나요?

0

43

2

판다스 표 표시

0

32

3

1유형 강의 다 나간 후 어떻게 할까요?

0

39

2

점수차가 많이 나는데 따로 하신게 있으신가요?

0

40

2

작업형1 모의문제 4번에 3)문제 질문

0

38

2

이상치 전처리 작업

0

47

2

평가결과값 문의

0

35

2

시계열 데이터 날짜와 시간 format

0

44

2

평가지표 F1 스코어 질문드립니다.

0

33

2

작업형 2 기출7회분에서

0

44

2

작업형2 모의문제1 (30강)

0

36

2

수강 기간 연장 문의 드립니다.

0

54

2

수강 계획과 관련해 문의 드립니다.

0

36

2

작업형1 - 연습문제 16~39 풀이는 몇강을 보면 되나요?

0

56

2