inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[2026년 빅분기 실기 준비] 빅데이터 분석 기사 실기 시험 100% 합격 ! 기출 문제의 패턴이 보인다 !

9회 작업형2번 문제

랜덤포레스트 성능평가 건

115

이진욱

작성한 질문수 3

0

안녕하세요

 

랜덤포레스트 분석 관련 질문입니다.

 

어떤 방식에서는 train_test_split을 사용하여 val데이터를 생성합니다.

 

이는 성능평가 시 f1스코어를 사용할때만

train_test_split을 사용하는 건가요?

빅데이터 빅데이터분석기사

답변 2

0

코딩 대한민국

네 ~ 답변드립니다

 

Train-test split과 F1 점수는서로다른목적으로함께사용됩니다

 

Train-test split은데이터를나누는방법입니다. 훈련용데이터로모델을학습시키고, 테스트용데이터로성능을평가해서과적합을방지합니다.

 

F1 점수는성능을측정하는지표입니다. 정밀도와재현율의조화평균으로, 불균형데이터에서특히유용합니다.

 

그래서 f1스코어를사용할때만

train_test_split사용하는건 아니고 기계학습을 위해서 모두 필요한 방법입니다

0

이진욱

랜덤포레스트 예제 풀이할때

 

어떤 경우엔 train_test_split을 사용하는데

꼭 사용하는 목적이 있는지 해서

질문드립니다.

 

어떤 예제에서는 굳이 검증 데이터분류하지 않고 train과 test 데이터만으로 예측해서요

1

코딩 대한민국

예제마다 훈련과 테스트를 나눈것도 있도 안나눈것도 있는것은 아마 훈련할 데이터의 양이 작았을때는 안나눴고 양이 많을때는 나눈건데요. 시험때는 무조건 훈련과 테스트로 나누고 훈련 시키는것을 추천드립니다. 시험에서의 데이터는 일단 훈련시키기 좋은 데이터가 주로 출제가 되고 그동안 출제된 데이터의 크기도 훈련과 테스트를 나눌 만큼 충분히 큰 데이터를 제공합니다. 나중에 체점을 따로 할 수 없으니 미리 훈련 데이터의 일부를 검증 데이터로 나눠서 모델의 성능을 미리 확인해보면 안심이 되거든요.

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. 이진욱님께서 랜덤포레스트를 이용한 성능 평가 방식에 대해 질문해 주셨네요.

train_test_split 사용 이유

train_test_split 함수는 주로 데이터를 학습용과 검증용으로 나누는데 사용됩니다. 이는 머신러닝 모델의 성능을 평가하기 위해 일반적으로 필요한 과정입니다. 이 과정은 특정 성능 지표(예: f1_score)를 사용할 때만 국한되지 않고, 모든 머신러닝 작업에서 검증 세트를 확보함으로써 과적합(overfitting)을 방지하고 다양한 성능 지표(f1_score, accuracy, recall 등)를 사용하여 모델의 일반화 능력을 평가하는 목적으로 사용됩니다.

랜덤포레스트와 f1_score

랜덤포레스트와 같은 머신러닝 모델은 다양한 평가 지표를 통해 성능을 평가할 수 있습니다. 특히 이진 분류 문제의 경우, 불균형한 데이터셋에서도 더 명확한 성능 평가를 위해 f1_score를 활용하는 경우가 많습니다. 따라서, train_test_split을 사용하여 평가에 필요한 데이터셋을 구축하면, f1_score뿐만 아니라 다른 지표도 신뢰성 있게 측정 가능합니다.

참고 자료

관련해서 검증 데이터의 중요성과 f1_score에 대한 기존 답변이 있습니다. 참고하시면 이해에 도움이 될 것입니다:
- “평가지표 f1_score와 mse 사용법”

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

수강 기한 연장 문의

0

78

4

코랩 기본 사용법 문의

0

64

1

8회 작업형1 문제2

0

60

2

4회 2유형 1번 문제

0

49

1

다중 선형 회귀 상수항 추가 관련 질문

0

90

2

10회 작업형1번문제2번 문제 풀이 틀림

0

76

2

8회 1유형 1번 문제

0

75

1

답변 항상 감사드립니다. 질문 있습니다.

0

70

2

원핫인코딩 이후 칼럼 불일치 문제

0

67

2

6회 1유형 3번 문제

0

64

1

코딩 방법에 따른 채점 기준에 관하여 질문있습니다.

0

81

1

데이터 파일들은 어디서 다운받을 수 있나요?

0

82

2

선형회귀분석 질문

0

50

2

링크가안보여요 어디에올라와있는거죠대체 ? 구글코랩파일이요

0

85

4

범주형 인코딩

0

86

2

원핫인코딩시 라벨링질문

0

79

1

인코딩 질문!!

0

74

1

유형2 질문!!

0

61

2

6회 작업형 2 문제 1

0

62

1

작업형 유형 2에서,,, train, test, split 시 성능

0

125

2

항상 모델학습하실때 train_test_split일부러 안하시는 이유가 있는건가요?

0

96

2

Label Encoding 관련 질문

0

103

3

상수항 질문드립니다. (6회 작업형 2문제)

0

51

1

2유형 답안 제출 시 문의

0

61

1