inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2 모의문제3

이해가 가지 않는 것

해결된 질문

71

김라의

작성한 질문수 34

0

<모델&평가>에서 fit(학습)을 시킬때는 왜 X_tr,y_tr을 넣고 예측을 할때는 왜 X_val를 넣나요 ?

그냥 아무거나 넣어도 되나요 ?

#rf
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier(random_state=2025)
rf.fit(X_tr,y_tr)
pred = rf.predict(X_val)

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

0

퇴근후딴짓

train 데이터를 2개로 쪼갰어요

X_tr(정답: y_tr)과 X_val(정답:y_val)이 있습니다.

 

훈련용으로는 X_tr 데이터를 사용했고

검증용으로는 X_val 데이터를 사용했어요

 

그리고 나서 평가지표를 확인하고

최종적으로는 test데이터를 예측합니다.

 

섹션 20에 79. 기출(작업형2) 한 가지 방법으로 풀기

영상으로 학습하셔도 좋습니다.

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. 김라의님.

모델을 학습하고 예측하는 과정에서 주어진 코드의 의도와 데이터를 분리하는 이유에 대해 궁금하신 것 같습니다. 기본적으로, 학습 데이터를 분리하는 목적과 그 사용 방법을 이해하면 해결이 될 것 같습니다.

  1. 훈련 데이터 (X_tr, y_tr): 모델을 학습시키는 데 사용됩니다. 이 데이터는 모델이 패턴을 학습하고, 어떻게 입력 변수와 출력 변수가 연관되어 있는지를 이해하는 데 도움을 줍니다.

  2. 검증 데이터 (X_val): 학습이 완료된 모델의 성능을 테스트하는 데 사용됩니다. 이는 과적합을 방지하고, 모델이 실제로 얼마나 잘 일반화되는지를 평가하는 데 중요합니다. 검증 데이터는 학습 과정에서 사용되지 않았기 때문에 모델의 진정한 예측 능력을 평가할 수 있습니다.

따라서 다음과 같은 용도로 사용됩니다:

  • rf.fit(X_tr, y_tr): 모델을 훈련 데이터로 학습시키는 과정입니다.
  • pred = rf.predict(X_val): 검증 데이터를 사용하여 모델의 성능을 평가합니다. 예측 값 pred는 검증 데이터에 대한 모델의 출력입니다.

관련 내용에 대해 더 자세히 알고 싶으시면 아래의 유사한 질문 및 답변을 참고하시면 도움이 될 것입니다:
- 모델 학습 및 평가지표 설정
- 작업형2 모형 fit 할 때

모델을 테스트하는 단계에서는 X_val 데이터를 통해 모델의 성능을 확인하는 것이 정석적인 방법이며, 따라서 아무 데이터를 넣어도 되는 것은 아닙니다. 이 과정에서 과적합을 피하고 모델의 일반화 능력을 높이는 것이 핵심입니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

기출 마무리 방법

0

6

1

빅이시 작업형2 기초 - 케이스 1~3 관련 문의

0

7

1

데이터프레임 슬라이싱 인덱싱 질문2

0

11

1

단일표본검정, 샤피로검정, 윌콕슨검정

0

20

2

강의자료 다운로드 여부

0

22

1

문제에 첨부된 예시와 실제 출력된 샘플 비교

0

17

2

원핫 인코딩 관련

0

26

2

타겟 분리

0

22

2

Id 삭제

0

25

2

roc_auc_score 질문: 작업형2 모의문제3 09분 48초

0

25

2

원핫인코딩 코드 질문

0

24

2

map 함수 사용 필수적인가요

0

31

2

수강 기한 연장 문의드립니다.

0

39

2

34강 평가지표

0

32

2

103강 작업2형 전처리(레이블인코딩 부분) 오류

0

25

3

작업형1_section14 문의

0

20

2

작업형1_연습문제 7번 관련입니다.

0

24

2

데이터 프레임 슬라이싱 혹은 데이터 선택하기가 어렵습니다.

0

23

2

크로스 밸리데이션 질문

0

27

2

로지스틱 회귀분석 질문

0

28

2

수치형 데이터만 선택하여 푸는 경우에 오답확률이 높아질까요?

0

31

2

2유형 object 컬럼 인코딩 관련 질문

0

46

2

하이퍼파라미터 변수

0

36

2

52강 이원분산분석

0

33

2