inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2 모의문제3

결과가 1로 나오는데 어디가 잘못된걸까요

83

ogh1231

작성한 질문수 1

0

 

target = train.pop('output')

from sklearn.preprocessing import MinMaxScaler

sc = MinMaxScaler()

train = sc.fit_transform(train)

test = sc.transform(test)

from sklearn.model_selection import train_test_split

x_tr, x_val, y_tr, y_val = train_test_split(train, target, test_size = 0.2 , random_state =5)

# print(x_tr.shape, x_val.shape, y_tr.shape, y_val.shape)

from sklearn.ensemble import RandomForestClassifier

rf = RandomForestClassifier(random_state=5, max_depth = 5)

rf.fit(x_tr, y_tr)

pred1 = rf.predict(x_val)

pred2 = rf.predict_proba(x_val)

from sklearn.metrics import roc_auc_score, f1_score

roc_auc_score = roc_auc_score(y_val, pred2[:,1])

f1_score = f1_score(y_val, pred1)

 

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 4

0

퇴근후딴짓

정말 그렇네요!
ID에서 예측가능한 부분이 있나봐요!
코드에는 전혀 문제가 없습니다. ID가 포함되더라도
모두 유니크한 값이라 거의 비슷한 결과가 나와야 정상인데

데이터를 제가 너무 쉽게 구성을 했네요.

 

0

ogh1231

감사합니다

0

ogh1231

작업형2 모의문제 3입니다.

0

ogh1231

제가 강의와 다르게 한점이 train, test 의 id 컬럼을 드랍안시켰는데.. 그것때문인가요?

id 드랍하니까 데이터가 나오긴 하더라구요

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다.

질문 주신 상황을 보았을 때, 해당 문제의 원인은 데이터 전처리나 모델 학습 단계에서 입력 데이터와 타겟 변수의 연관성 때문에 발생할 수 있습니다. 특히, 모델이 학습 데이터와 테스트 데이터 간의 차이점을 잘 이해하지 못했을 가능성이 높습니다.

  1. 데이터 유출: train_test_split() 함수 사용 시, 타겟 변수와 피처 데이터를 분리할 때 타겟 변수와 직간접적으로 연관된 피처가 사용되었거나 데이터 누출 가능성이 있는지를 체크해주시기 바랍니다. 이 때문에 학습 데이터에서 매우 높은 성능을 보일 수 있습니다.

  2. 데이터 확인: 데이터셋을 수동으로 한 번 육안으로 확인해 보세요. 데이터의 모든 열이 의미적으로 일관된지, 혹은 같은 데이터 타입인지 검토하시기 바랍니다.

  3. 데이터 불균형: 타겟 변수의 분포가 매우 불균형하게 되어 있을 수 있습니다. 예를 들어, 대부분의 타겟 값이 동일한 경우, 모델은 해당 값을 예측하는 데 특화하게 될 수 있습니다.

  4. 특성 스케일링: 모든 피처를 스케일링했지만, 정규화하는 과정에서 발생하는 문제가 없는지 확인이 필요합니다. 파생 변수나 추가적인 이항 변수 생성이 필요한 경우도 있습니다.

보다 구체적인 해결 방법을 찾기 위해 아래 링크를 참조하실 수 있습니다:

  • 작업형2 모의문제 1 질문2: 모델 평가 메트릭이 모두 최대 값이 나오는 현상에 대한 디버깅 과정을 확인할 수 있습니다. 특히, 데이터의 분포와 특성 선택에 대한 주의를 기울여야 할 부분이 강조됩니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드립니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

1유형 강의 다 나간 후 어떻게 할까요?

0

13

1

점수차가 많이 나는데 따로 하신게 있으신가요?

0

10

1

작업형1 모의문제 4번에 3)문제 질문

0

21

2

이상치 전처리 작업

0

25

2

평가결과값 문의

0

29

2

시계열 데이터 날짜와 시간 format

0

35

2

평가지표 F1 스코어 질문드립니다.

0

27

2

작업형 2 기출7회분에서

0

38

2

작업형2 모의문제1 (30강)

0

34

2

수강 기간 연장 문의 드립니다.

0

42

2

수강 계획과 관련해 문의 드립니다.

0

30

2

작업형1 - 연습문제 16~39 풀이는 몇강을 보면 되나요?

0

50

2

작업형 1 -연습문제 4-6

0

38

2

작업형 1 유형 부분

0

42

2

작업형 1 (삭제예정, 구 버전)

0

51

2

수강기간 연장 문의드립니다.

0

38

2

2유형 레이블 인코딩 VS 원핫 인코딩

0

37

3

수강기간 연장 문의드립니다.

0

44

2

인덱스 슬라이싱

0

37

2

질문 드립니다.

0

50

2

강의 내용 관련 질문드립니다~

0

46

2

수강 연장 문의

0

63

2

강의자료 일괄 다운로드

0

62

2

수강기간 연장 문의드립니다

0

48

2