inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2 모의문제1

작업형2 유의사항

해결된 질문

463

김태범

작성한 질문수 15

1

안녕하세요 강사님

작업형2유형 유의사항에

평가용 데이터 개수와 예측 결과 데이터 개수 불일치시 0점이라 되어있는데요.

 

  1. train.shape, test.shape 찍었을때 만약

    (712,7) (179,7) 오 나왔다면

    여기서( 712,7)이랑 (179,7)에서 컬럼이 7로 같으니까 개수가 위 주의사항에서의 데이터 개수가 일치한다고 보는건가요? 데이터 개수라는게 어떤걸 의미하고 이것이 일치하는지를 어떻게 확인할수있나요?

  2. 만약 roc_auc_score등으로 평가지표가 산출이된다면 제출할때 데이터개수 불일치로 인해 0점맞을 걱정은 안해도되는건가요?

저기 주의사항에 있는 데이터개수 불일치라는게 정확히 뭘 의미하고 어떻게 확인하는지를 모르겠네요ㅠㅠ

 

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 1

1

퇴근후딴짓

  1. 컬럼이 아닌 행의 개수를 의미 합니다. 예를들어 test데이터의 행이 100개였는데 수험생이 결측치/이상치를 처리한다고 train데이터에서 삭제하는 것은 괜찮은나 test데이터를 20개를 삭제했을 때 80개만 남았어요. 이상태로 예측하면 예측값도 80개 입니다. 0점 처리 됩니다.

  2. 평가 지표와 데이터 개수 불일치는 관련이 없습니다.

    데이터 전처리에서 문제가 발생합니다.

0

김태범

아 컬럼이 아닌 행의 개수를 뜻하는거군요.

그럼 시험장에서

import pandas as pd

train = pd.read_csv("train.csv")
test =  pd.read_csv("test.csv")
print(train.shape, test.shape)
#(242, 15) (61, 14) 

하고나서

코딩을 전부 진행한 이후 마지막에

pd.DataFrame({'id':test_id, 'output':pred_proba[:,1]}).to_csv("00000.csv", index=False)
print(train.shape, test.shape)
#(242, 14) (61, 13)

예를들어 첫 코드블럭과 같이 코드시작할때 print(train.shape, test.shape)의 결과값과

두번째 코드블럭과 같이csv 파일을 저장하고나서 print(train.shape, test.shape)을 비교할때

(242, 15) (61, 14) 
(242, 14) (61, 13)

이런식으로 컬럼개수는 다를지라도 처음 주어졌을때의 train, test 데이터와 마지막에 전처리 다 끝나고 train, test의 "행"개수(train은 242로 동일, test는 61로 동일)이 같다면 0점받을 일은 없는건가요?

1

퇴근후딴짓

컬럼은 원핫인코딩하면 늘어날 수도 있습니다.
train 행은 삭제되어도 괜찮습니다.
test 행은 삭제되면 절대!!!! 안됩니다.

 

전처리 후 행의 개수를 파악해도 되지만

더 정확히는 예측하고 제출한 csv 파일을 확인해야죠!!

pd.read_csv("0000.csv").shape 에서 행의 개수가 61개가 맞는지 확인해 주세요!!

 

출력값 질문

0

12

1

수업노트가 어디에 있나요?

0

21

1

실기시험 제출관련

0

154

2

6.20 작업형 2 과적합

0

158

3

코딩팡 장업형2 베이스 라인 인코딩 종류 질문

0

50

2

로지스틱회귀, 회귀

0

48

2

회귀 문제를 풀때 질문입니다.

0

56

1

불균형 처리 후 성능이 더 낮아졌다면,

0

62

2

실기 체험 제2유형 에러 문의

0

61

1

LIGHTGBM 으로 하면 pred값이 소수점 6자리까지 나오는게 맞나요

0

50

2

3번문제 등분산 가정

0

48

2

작업형3 target 형 변환 질문

0

35

2

[작업형1] 연습문제 섹션1 ~ 10 의 section4

0

36

3

원핫인코딩과 레이블 인코딩에서 concat

0

59

2

제2유형 질문입니다.

0

46

2

C()

0

44

2

작업형 2에서 strafity 적용 유무

0

52

2

수강 기간 연장 가능 여부 문의드립니다.

0

61

1

ols

0

43

2

2유형 작성관련 질문(일반 심화)

0

39

2

2유형 작성관련 질문

0

41

2

2유형 object컬럼 개수 다르면

0

48

2

코딩팡질문이요ㅠㅠ

0

45

2

관찰값과 기대값의 개념이 헷갈립니다.

0

25

2