inflearn logo
강의

Course

Instructor

[Side Project After Work] Big Data Analysis Certification Practical Exam (Type 1, 2, 3)

[Performance-based Type 2] Practice Problems Section 4

city 컬럼 삭제

2

lms01063846272

1 asked

0

cols = train.select_dtypes(include='O').columns

for col in cols:
  train_set = set(train[col])
  test_set = set(test[col])
  same = (set(train[col]) == set(test[col]))

  if same:
    print(col, "동일")
  else:
    print(col, "동일하지않음")

이 코드를 실행했을 때 'city'가 동일하지 않다고 나와서 city컬럼을 train과 test 모두에서 삭제해야하는 줄 알았는데 보통 어느 경우에 컬럼을 삭제하는 건지 궁금합니다.

 

 

 

python 머신러닝 빅데이터 pandas 빅데이터분석기사

Answer 1

0

communityai8509

안녕하세요, 인프런 AI 인턴입니다. 이민서님.

질문 주신 내용에서는 데이터프레임의 'city' 컬럼이 traintest 데이터세트에서 동일하지 않다는 결과를 얻으신 것 같습니다. 이는 두 데이터 세트 간의 특정 텍스트 데이터가 다르게 존재하거나 불일치하는 범주형 데이터일 수 있습니다. 이 경우, 컬럼을 삭제하기 전에 고려해야 하는 몇 가지 기준이 있습니다:

  1. 모델의 필요성: 해당 컬럼이 예측 모델에 중요한 피처인가요? 만약 특정 컬럼이 모델의 성능에 크게 영향을 줄 중요 피처라면, 다른 적절한 전처리(예: 범주형 변수 인코딩)를 통해 해결하는 것이 좋습니다.

  2. 데이터의 균형 유지: 동일하지 않은 범주형 데이터가 많은 경우, 원핫 인코딩이나 라벨 인코딩 후 발생할 수 있는 데이터 크기 증가에 대한 고려가 필요합니다.

  3. 데이터 분포와 비즈니스 룰: ‘City’ 같은 경우, 각각의 값이 실제 분석 시 비즈니스적으로 중요한가요? 만약 그렇다면, 무작정 삭제하기보다는 불일치를 해결할 방법을 찾는 것이 좋습니다.

  4. 데이터 검증: 컬럼을 삭제하기 전, 실제로 중요한 정보를 가지고 있는 피처인지, 기존 문제와 데이터의 목적에 맞는 피처인지 검토합니다.

위 기준들에 따라 ‘city’ 컬럼을 삭제할지 유지할지를 결정을 내리시면 됩니다. 데이터 전처리 시, 단순히 불일치나 복잡성으로 인해 삭제하기보다는 모델의 목적과 성과에 영향이 없는지, 그리고 해당 데이터가 가지는 실질적 의미를 고려하셔야 합니다.

관련하여 유사한 질문과 답변을 참고하실 수 있습니다:
- 작업형2 모의문제에서 불일치 컬럼 처리 방법
- 데이터 전처리: 컬럼 삭제 vs 전처리

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

3회 기출(작업형 2) 질문 있습니다!!

0

12

1

2유형 탬플릿에 대한 질문입니다

0

17

1

시험환경 질문 드립니다.

0

17

1

수강기간 연장 가능 여부 문의드립니다

0

35

2

문제2-2에서 유의한 변수에서 음수는 유의한지?

0

22

3

강의 만료 후 오프라인 저장 강의 수강 가능 여부

0

34

2

xgboost에 관해

0

35

2

빅데이터분석기사 작업2형

0

38

2

평가지표 RMSE 문의

0

35

2

1-3번문제 질문

0

39

2

회귀모델 평가지표 최근 시험환경에서의 지원여부가 궁금합니다

1

37

2

컬럼 삭제 관련

0

35

2

레이블 인코딩과 원핫 인코딩

0

41

2

검정결과 질문(채택/기각)

0

36

2

수강기간 연장 가능 여부 문의

0

41

2

마인드맵에서 암기해야할 내용은 별마크 인가요

0

40

2

수강 연장 문의드립니다

0

36

2

2유형 관련 질문

0

47

2

수강기간 연장 문의드립니다

0

41

2

로지스틱 회귀 데이터 누락 관련 질문

0

42

2

수강기간 연장 문의드립니다.

0

42

2

작업형1 - 연습문제 1번 관련 질문입니다.

0

50

2

강의 자료 16~39 관련

0

49

2

데이터 전처리 시 문의

0

47

2