inflearn logo
강의

講義

知識共有

[仕事終わりの趣味] ビッグデータ分析実技 (作業型1,2,3)

データ前処理1(欠損値、外れ値)

작업형2 머신러닝 문제풀이 중 test 데이터 에러 문의

1

scmasterpark

投稿した質問数 1

0

안녕하세요

 

'작업형2 문제

제공된 데이터는 성인 인구조사 소득 데이터이다. 제공된 학습용 데이터(train.csv)를 이용하여 소득을 예측하는 모델을 개발하고, 개발한 모델에 기반하여 평가용 데이터(test.csv)에 적용하여 얻은 소득 예측 결과를 아래 [제출 형식] 에 따라 CSV 파일로 생성하는 코드를 제출하시오.' 문제를 강의들으며 열심히 손으로 쓰고 실행하던 중

이상처 처리 중 아래의 코드 실행하니

cond = test['age']<=0
test[cond]

처음에 test.describe()에서 없던 age에서 마이너스값이 나옵니다. 그래서 하나하나 어디서 문제인가 다시 실행을 해보니 (한 코드 실행마다 test.describe() 실행해보며 체크) 결측치 채우기 중 갑자기 test 데이터에서 마이너스가 뜹니다..왜 그런걸까요ㅠ

 

감사합니다.

python 머신러닝 빅데이터 pandas 빅데이터분석기사

回答 1

0

communityai8509

안녕하세요, 인프런 AI 인턴입니다. scmasterpark님의 질문에 답변 드리겠습니다.

데이터 전처리 과정 중에, test 데이터 프레임에서 이상치에 해당하는 age 컬럼에 음수 값이 발생한 것 같습니다. 이는 결측치 처리 과정에서 의도치 않게 음수 값이 삽입되었을 가능성이 있습니다. 흔히 일어나는 몇 가지 원인을 살펴보겠습니다:

  1. 결측치 대체 과정에서의 오류: 결측치를 대체할 때, 잘못된 연산이나 변환 때문에 음수가 발생할 수 있습니다. 예를 들어, 평균값이나 중위수로 결측치를 대체할 때 데이터 스케일이나 값 설정이 잘못된 경우입니다.

  2. 데이터 병합 또는 인덱싱 오류: 데이터를 다른 데이터프레임과 병합하거나 인덱싱할 때 잘못된 기준이 설정되어 음수 값이 대입되는 경우가 있을 수 있습니다. 결측치 처리 후의 데이터프레임 크기가 이전과 달라졌는지를 확인해 보시기 바랍니다.

  3. 데이터 타입 또는 포맷 전환 문제: 특정 컬럼에서 형변환을 할 때, 예상과 다르게 잘못 변환되면서 음수가 발생할 수 있습니다.

이를 확인하고 해결하기 위해 다음과 같이 접근할 수 있습니다:

  • 결측치 처리를 담당하는 코드 부분을 면밀히 검토하여 논리적인 오류가 없는지 확인합니다. 예를 들어, 결측치 처리 시 사용한 방법(평균, 중앙값, 최빈값 등)이 적절한지 확인하세요.
  • 처리 과정에서의 출력값을 중간중간 확인하여 어느 단계에서 잘못된 값이 주입되었는지를 추적합니다.

본 문제와 유사한 경우를 다룬 기존 게시글이 있어 추천드립니다. 동일한 문제에 대해 다른 학습자가 해결한 사례가 담긴 게시글입니다:

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.

현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

수강연장가능문의

0

8

1

59. 11회 기출 유형 작업형 1 - 문제2 관련

0

7

1

원핫인코딩 슬라이싱 결과

0

10

1

random_state 값이 궁금합니다!

0

17

2

수강기간 연장 가능 여부 문의드립니다

0

38

2

city 컬럼 삭제

0

21

2

3회 기출(작업형 2) 질문 있습니다!!

0

21

1

2유형 탬플릿에 대한 질문입니다

0

37

1

시험환경 질문 드립니다.

0

29

1

수강기간 연장 가능 여부 문의드립니다

0

49

2

문제2-2에서 유의한 변수에서 음수는 유의한지?

0

36

3

강의 만료 후 오프라인 저장 강의 수강 가능 여부

0

46

2

xgboost에 관해

0

49

2

빅데이터분석기사 작업2형

0

53

2

평가지표 RMSE 문의

0

47

2

1-3번문제 질문

0

44

2

회귀모델 평가지표 최근 시험환경에서의 지원여부가 궁금합니다

1

41

2

컬럼 삭제 관련

0

47

2

레이블 인코딩과 원핫 인코딩

0

48

2

검정결과 질문(채택/기각)

0

38

2

수강기간 연장 가능 여부 문의

0

48

2

마인드맵에서 암기해야할 내용은 별마크 인가요

0

42

2

수강 연장 문의드립니다

0

39

2

2유형 관련 질문

0

50

2