inflearn logo
강의

講義

知識共有

[仕事終わりの趣味] ビッグデータ分析実技 (作業型1,2,3)

作業型2 模擬問題2

컬럼 삭제 관련

5

jhku24339345

投稿した質問数 3

0

밑에 q&a를 보면서 학습에 굳이 필요없는 값들은 삭제해야되는 것이 인코딩하기에 유리하다는 것을 이해했습니다.

다만 실제 시험에서는 어떤 컬럼을 삭제해야할지 확실하지 않을 경우 그냥 컬럼 삭제 없이 인코딩을 진행해도 무방한지 알고싶습니다.

그동안의 기출에서도 굳이 삭제하지 않고 인코딩 했을때에 불이익이 없었는지도 궁금합니다.

cols = ['name', 'host_name', 'last_review', 'host_id']
print(train.shape)
train = train.drop(cols, axis=1)
test = test.drop(cols, axis=1)
print(train.shape)

python 머신러닝 빅데이터 pandas 빅데이터분석기사

回答 1

0

communityai8509

안녕하세요, 인프런 AI 인턴입니다. 12 김철분님.

컬럼 삭제와 관련해 궁금한 점을 질문해 주셨군요. 데이터 전처리 과정에서 특정 컬럼을 삭제하는 것은 데이터의 불필요한 정보를 제거하여 모델의 성능을 향상시키기 위함입니다. 특히, ID 컬럼이나 데이터의 학습에 실제로 필요하지 않은 고유 식별자 같은 정보들은 일반적으로 제거합니다.

다만, 실제 시험이나 프로젝트에서는 어떤 컬럼을 삭제할지 여부를 결정할 때 판단이 서지 않는 경우도 있을 수 있습니다. 이때 다음의 사항을 고려하시기를 권장드립니다:

  1. 반드시 삭제할 필요성 없음: 모든 컬럼을 반드시 삭제해야 하는 것은 아닙니다. 컬럼이 데이터의 특성과 관계없이 독립적이고, 모델의 성능에 큰 영향을 주지 않는다면 그냥 두어도 무방합니다. 다만, 너무 많은 변수가 포함되면 계산 복잡도가 높아질 수 있으니 주의해야 합니다.

  2. 인코딩 후 비교: 삭제가 애매한 경우, 모든 컬럼을 인코딩하여 학습한 결과와 삭제한 결과를 비교해가면서 판단하셔도 됩니다. 출력된 성능 지표를 기준으로 더 나은 방법을 선택하세요.

  3. 부정적인 영향의 여부: 기출 문제에서는 보통 불필요한 데이터는 미리 삭제되었다고 가정하기 때문에, 큰 불이익이 발생하지는 않았지만, 이는 문제에 따라 다를 수 있습니다. 데이터의 평가지표나 모델 수행 시간을 고려하여 결정하시면 됩니다.

관련한 유사 사례를 아래 질문들을 통해 참고하실 수 있습니다:

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

회귀모델 평가지표 최근 시험환경에서의 지원여부가 궁금합니다

0

6

1

레이블 인코딩과 원핫 인코딩

0

17

2

검정결과 질문(채택/기각)

0

22

2

수강기간 연장 가능 여부 문의

0

26

2

마인드맵에서 암기해야할 내용은 별마크 인가요

0

28

2

수강 연장 문의드립니다

0

23

2

2유형 관련 질문

0

27

2

수강기간 연장 문의드립니다

0

30

2

로지스틱 회귀 데이터 누락 관련 질문

0

30

2

수강기간 연장 문의드립니다.

0

32

2

작업형1 - 연습문제 1번 관련 질문입니다.

0

41

2

강의 자료 16~39 관련

0

45

2

데이터 전처리 시 문의

0

43

2

random_state 값

0

41

2

인코딩 사용여부

0

51

2

인코딩 전 데이터 합치기 질문드립니다!

0

45

1

섹션5. 회귀 강의 관련 질문드립니다

0

48

2

수강기간연장 문의드립니다

0

64

2

수강 연장 문의

0

50

2

label 인코딩 에러 발생 원인

0

48

2

LabelEncoding 시 train data 학습(fit_transform, transform)

0

46

2

로지스틱 회귀분석은 옛날거 밖에 없나요?

0

50

2

판다스 표 표시

0

38

3

1유형 강의 다 나간 후 어떻게 할까요?

0

44

2