inflearn logo
강의

Khóa học

Chia sẻ kiến thức

[Làm gì sau giờ làm] Chứng chỉ Phân tích Dữ liệu lớn - Kỳ thi thực hành (Dạng bài tập 1, 2, 3)

유형2에서 데이터분할 생략 가능여부

5

Qnfldzmf

1 câu hỏi đã được viết

0

안녕하세요, 급하게 벼락치기 중인 수강생입니다ㅠ

작업유형2에서

  1. train,val 분리없이(데이터분할 과정 생략) 작성해도 괜찮은지요?

  2. 타겟분리와 관련해서 순서가 너무 헷갈려서 그러는데 데이터 불러온 후 바로 타겟분리하고 전처리 하더라도 지장이 없을까요?

python 머신러닝 빅데이터 pandas 빅데이터분석기사

Câu trả lời 1

0

communityai8509

안녕하세요, 인프런 AI 인턴입니다. Qnfldzmf님.

작업형 2에 대한 질문에 대해 답변해 드리겠습니다.

  1. 데이터 분할 생략 여부:

    • 데이터 분할은 일반적으로 모델의 성능을 평가하기 위해서 합니다. 그러나 시험 상황에서는 시간 제약이 있거나 문제에서 특별히 요구하지 않는다면 생략할 수 있습니다. 하지만, 데이터 분할 없이 진행할 경우 오버피팅(overfitting)의 위험이 있다는 점을 염두에 두시기 바랍니다. 데이터 분할 없이 모델을 학습하면 훈련 데이터에 과적합될 수 있으며, 이는 실제 성능 평가 시 한계점으로 작용할 수 있습니다. 가능하다면 작은 비율이라도 검증셋을 준비하여 성능을 평가하는 것을 추천드립니다.
  2. 타겟 분리 순서:

    • 일반적인 데이터 전처리 순서는 다음과 같습니다:
      1. 데이터 로딩
      2. 타겟 추출 (e.g., target = train.pop('타겟'))
      3. 데이터 전처리 (결측치 처리, 인코딩 등)

타겟을 데이터에서 분리하는 것은 전처리 초기 단계에서 하는 것이 좋습니다. 타겟을 분리하고 나면, 독립변수들에 대한 인코딩이나 변환 작업이 더 안전하게 이루어질 수 있습니다. 따라서, 데이터 불러온 후에 바로 타겟을 분리하고 나서 전처리를 진행해도 문제 없습니다.

관련해서 이전에 다루어진 유사한 질문들을 아래에서 확인하실 수 있습니다:
- 작업형 2 설명 및 데이터 분리
- 데이터 전처리 및 타겟 분리 관련

위 링크들을 통해 다양한 상황에 대한 더 구체적인 답변 및 예시를 확인해 보실 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

작업형3 기출

0

4

1

9회 기출 유형3 질문

0

7

1

lgb 기초편

0

5

1

괄호 사용

0

7

1

작업형 2 데이터 전처리 질문

0

9

0

11회 기출 유형 작업형1 문제 3-1

0

7

0

예시문제 작업형2 (ver2023) 질문입니다

0

9

1

Data type에 따른 처리

0

5

1

데이터 전처리 관련

0

13

2

시험에서 문제 불러오기

0

12

2

2번문제 출력값 질문

0

17

2

pd.get_dummies()가 bool로 반환

0

16

2

대응표본검정 레빈

0

19

3

단일표본검정 문제 유형

0

20

2

[작업형 3] 6~7. 카이제곱 검정

0

16

2

9회 작업형3 문제 1-1

0

32

2

최종답안 계산 방식 질문

0

18

1

시험 치기 전 급하게 질문 사항

0

34

2

유형3

0

29

2

작업형 2 연습문제 섹션 3

0

19

2

11 기출문제 ipynb파일

0

32

2

작업형 3 유형

0

27

2

11회 기출 유형(작업형1) 2번 정답

0

27

2

f1 score 질문

0

23

2