inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

예시문제 작업형2(ver. 2025)

예시문제 작업형2 질문있습니다.

해결된 질문

100

bleufonce10

작성한 질문수 2

0

실제 시험을 볼때는 뭔가 정신이 없을거같아서

train과 test의 unique값 차이 여부 생각하지 않고

그냥 무조건 train과 test를 concat으로 합치고

레이블 인코딩 진행한 후 train과 test를 분리하고자 하는데

이렇게 진행해도 괜찮을까요?

데이터 누수(?), 과적합가능성 있다고 들어서 질문드립니다.

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

0

퇴근후딴짓

네, 좋습니다.

어디선가 들은 내용은 맞는 말이지만

데이터 누수(?), 과적합가능성 -> 시험에서는 이런 문제 신경 안써도 됩니다.

 

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. bleufonce10님께서 작업형 2에 대한 질문을 주셨군요. 머신러닝 모델링에서 데이터의 일관성을 유지하기 위해 train과 test 데이터를 통합하여 인코딩하는 방법은 흔하게 사용됩니다. 이 방법이 적절한지 확인하고, 데이터 누수 및 과적합 가능성을 최소화하는 방법에 대해 설명드리겠습니다.

1. 데이터 통합 후 인코딩

  • 범주형 데이터의 통일: train과 test 데이터의 unique 값이 서로 다를 수 있습니다. 이를 방지하기 위해 통합 후 인코딩을 진행하는 것이 좋습니다. 이를 통해, 모든 데이터에 대해 동일한 기준의 인코딩을 적용할 수 있습니다.

  • 데이터 나누기: 인코딩 후, train과 test 데이터를 다시 분리하여 모델링을 수행하면, 테크닉적인 측면에서 일반적인 방법과 다를 바 없으므로 과적합이나 데이터 누수의 가능성은 낮습니다.

2. 데이터 누수와 과적합

  • 데이터 누수 방지: 데이터 누수는 통상적으로 테스트 데이터의 정보가 학습 과정에 유입되는 상황을 의미합니다. 데이터 전처리 과정에서 test 데이터의 정보가 학습에 사용되지 않도록 주의가 필요합니다. 인코딩 후 분리하는 방법은 이러한 누수의 가능성을 차단합니다.

  • 과적합: 과적합 가능성은 주로 모델의 복잡도나 특성의 과도한 학습에 기인합니다. 데이터 통합 자체는 과적합을 유발하지 않으므로, 모델의 복잡도를 적절히 조정하는 것이 중요합니다.

질문자님의 경우, 방법이 적절하며 일반적인 주의사항만 지키신다면 괜찮습니다. 추가로 어떤 방법이 더 효율적일지 궁금하시다면 아래 유사한 질문 링크를 활용해 주세요.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

뒤로가기 버튼 같은 것이 있나요?

0

27

1

강의 연장 문의

0

31

1

출력값 질문

0

31

2

수업노트가 어디에 있나요?

0

29

1

실기시험 제출관련

0

160

2

6.20 작업형 2 과적합

0

169

3

코딩팡 장업형2 베이스 라인 인코딩 종류 질문

0

52

2

로지스틱회귀, 회귀

0

52

2

회귀 문제를 풀때 질문입니다.

0

59

1

불균형 처리 후 성능이 더 낮아졌다면,

0

66

2

실기 체험 제2유형 에러 문의

0

66

1

LIGHTGBM 으로 하면 pred값이 소수점 6자리까지 나오는게 맞나요

0

52

2

3번문제 등분산 가정

0

50

2

작업형3 target 형 변환 질문

0

38

2

[작업형1] 연습문제 섹션1 ~ 10 의 section4

0

40

3

원핫인코딩과 레이블 인코딩에서 concat

0

62

2

제2유형 질문입니다.

0

49

2

C()

0

44

2

작업형 2에서 strafity 적용 유무

0

53

2

수강 기간 연장 가능 여부 문의드립니다.

0

63

1

ols

0

44

2

2유형 작성관련 질문(일반 심화)

0

41

2

2유형 작성관련 질문

0

42

2

2유형 object컬럼 개수 다르면

0

49

2