inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

train_test_split, ttest_1samp

162

osy

작성한 질문수 1

0

안녕하세요!

세가지 질문 있습니다

 

[작업형 2 관련]

오늘 유형2에서 train_test_split을 사용 못하고

point = int(len(train)*0.8)

x_tr = train[:point]

x_val = train[point:]

와 같은 형태로 앞에서부터 자른 데이터로 학습/검증 진행했는데..

 

이런 경우에, train_test_split 을 사용했을때보다

점수가 많이 낮을까요? ㅜㅜ

pred == y_val 단순 비교 시 87% 일치했습니다

(object type column과 결측치는 없어서 인코딩은 생략했습니다 )

 

[작업형 3-1 관련]

1번문제가 특정값=N일 때와 비교하여

특정값=P일때의 종속변수 오즈비 구하는 문제였는데

특정값=N인 경우는 coefficient가 안나오더라구요..

np.exp(P인 경우의 coefficient)로 제출했는데

제가모델 만들때 뭔가 빠트린걸까요?

 

[작업형 3-2 관련]

동일집단의 전후 비교를 물어봐서 대응표본검정 문제 같았는데,

 

집단의 과거 시점 데이터 중에 주어진건

특정 컬럼의 “평균값“이라서,

 

단일표본검정 문제를 풀듯이

ttest_1samp(df[“A“], (A의 과거 평균값) )

으로 넣고 풀었습니다.

 

정확한 출제 내용 없이 질문드려서 좀 그런데..

제가 유형 분석을 맞게 한걸까요?

 

 

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

0

퇴근후딴짓

[작업형 2 관련]
문제 없지만
불균형 데이터여서 한쪽에 2값이 완전히 없을까 걱정이되네요!!

그래도 2의 데이터 수가 작아서 괜찮을 것 같습니다.

 

[작업형 3-1 관련]

범주형 변수 있때 자동으로 1개 컬럼이 제거되는 것이 맞습니다(다중공선성 문제)
알파벳 순으로 첫 컬럼이 제거됩니다

 

[작업형 3-2 관련]

네 맞아요 대응같은 단일표본으로 보여집니다 ㅎㅎ

 

고생 많으셨습니다:)

문제 파악하느라 답변이 늦었네요!!

 

 

0

osy

답변 감사합니다 강사님!

 

그럼 3-1의 오즈비 문제 정답은

np.exp(Pre의 coefficient 값) 으로 보면 될까요?

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. osy님.

질문 주신 내용은 train_test_split 대신 데이터셋을 수동으로 나누는 방법에 대한 것입니다. train_test_split 함수를 사용하면 데이터를 랜덤으로 분할하기 때문에 데이터의 분포를 더 잘 반영할 수 있습니다. 반면, 데이터셋을 앞에서부터 특정 비율로 잘라서 나누는 경우, 데이터가 정렬되어 있을 경우에는 학습 데이터가 대표성을 잃을 가능성이 있습니다.

수동 분할 방식의 장단점

  1. 장점:

    • 데이터가 시간순으로 정렬되어 있는 시계열 데이터와 같은 경우에는 수동으로 나누는 방식이 더 적절할 수 있습니다.
  2. 단점:

    • 데이터가 특정 패턴에 따라 정렬되어 있는 경우, 수동 분할은 데이터의 대표성을 떨어뜨리고, 모델이 특정 유형의 데이터를 더 많이 학습하게 되어 성능이 떨어질 수 있습니다.
    • 결과적으로 비슷한 조건의 다른 데이터에 대해서는 예측력이 떨어질 가능성이 있습니다.

점수가 0.87이라면 꽤 좋은 성과를 얻으신 것 같지만, 데이터를 랜덤으로 분할해서 사용하면 더 다양한 상황에서의 모델 성능을 검증할 수 있습니다. 한번 train_test_split을 사용해 비교해보시는 것도 좋습니다.

유사한 내용이 강조된 게시물을 아래 링크에서 확인하실 수 있습니다:

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

작업형 3 유형

0

7

2

11회 기출 유형(작업형1) 2번 정답

0

12

1

f1 score 질문

0

10

1

10회 작업형 2 인코딩 질의

0

8

1

53번 강의에서 갑자기 수업노트가 없어졌습니다.

0

16

2

28:19 roc_auc이유

0

17

2

수강연장문의

0

18

2

전체적인 머신러닝 순서

0

14

1

빅분기 실기 유형2질문

0

17

1

ID 전처리 이유

0

29

2

데이터제공

0

25

2

예시문제 작업형3 꼬리질문2번

0

16

1

데이터 개수를 구할 때, len과 value_counts 차이

0

20

2

작업형 2 제출방

0

20

2

인코딩 스케일링 순서

0

21

2

실제 시험에서도 공식을 문제에서 주는지

0

20

2

수강 연장 문의

0

19

2

작업형2 정리한 내용 확인 부탁드립니다 ㅜㅜ

0

22

1

14강 "" 사용 관련 질문

0

22

2

캐글 제출 점수

0

26

2

기출 마무리 방법

0

51

2

빅이시 작업형2 기초 - 케이스 1~3 관련 문의

0

38

6

데이터프레임 슬라이싱 인덱싱 질문2

0

29

2

단일표본검정, 샤피로검정, 윌콕슨검정

0

39

2