inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

예시문제 작업형2

해결된 질문

323

sychang2000

작성한 질문수 15

0

데이터 전처리할 때 왜 id를 삭제하나요?

학습할 때 필요할 지

테스트의 id값이 최종적으로 필요할 지 어떻게 아나요?

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 1

1

퇴근후딴짓

  1. train에서 id를 삭제하는 이유
    id값은 모든 데이터(행)이 다른 값을 가지고 있어요. 모델을 만들 때 중요한 피처(컬럼, 변수)가 아니어서 삭제했어요
    또한 인코딩하거나 스케일링할 때 id도 함께 변경이 되어버려 그렇습니다.
    만약 id를 삭제하는 것이 번거롭다면 그대로 사용해도 됩니다. 머신러닝 모델이 알아서 중요도를 낮게 지정할 거에요

    (그대로 사용한다면 test에서도 그대로 사용해야 함, 컬럼 수가 동일해야 합니다.)

  2. 최종적으로 csv를 만드는 형식을 보면 됩니다. id(또는 index)와 pred(예측값)이라면 test id가 필요합니다. 별도로 저장이 필요해요 ~ 다만 6회 시험은 예측 컬럼만 제출하라고 얼마 전 안내되어 필요하지 않습니다

1

sychang2000

감사합니다~

작업형2 카테고리

0

7

1

110강 회귀_8번 문의

0

8

2

XGBRegressor 학습 시 warning 출력

0

13

2

데이터 프레임을 변경해도 되나요?

0

10

2

10회 기출 작업형3 문제 2-1 질문

0

15

2

작업형 2 질문

0

15

2

작업형 2 템플릿 확인 요청

0

13

2

작업형2 인코딩 질문

0

22

2

작업형 3 벼락치기 공부방법 질문

0

30

2

기출 11회 작업형 2_전체 데이터 학습 여부

0

31

2

예측값 결과 소수점 차이

0

28

2

기출 문제와 실전챌린지 연습문제 무엇부터 푸는게 나은가요?

0

35

1

전처리 train() test([ ])

0

23

2

작업형 1 배경지식 질문

0

32

2

옳게 풀은건지 질문드립니다!

0

22

1

roc_auc_score

0

30

2

추가질문 합니다

0

22

2

시험환경 구름

0

20

2

2유형 질문드려요

0

21

2

RandomForest vs lgb

0

28

2

전처리 관련질문

0

29

3

작업형3 기출

0

20

2

유형2에서 데이터분할 생략 가능여부

0

33

2

9회 기출 유형3 질문

0

21

2