inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

[작업형2] 연습문제 섹션 3

작업형 2 질문

48

gusdlseld0089

작성한 질문수 4

0

선생님 작업형 2는 train.info() 했을 때 결측치가 없고 object 형이 많거나 해도 라벨 인코딩 말고 원핫 인코딩을 하고 모델은 randomforest lightgbm 사용해서 점수 더 잘 나온것을 기준으로 제출해도 될까요?

 

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

0

퇴근후딴짓

네! 2~10회까지 그렇게 했을 때

40점에 아무런 문제가 없었습니다. 🙂

다만 여유가 있다면 카테고리가 다른 케이스도 봐주세요 (합쳐서 인코딩)

0

gusdlseld0089

감사합니다!

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. gusdlseld0089님.

작업형 2에서 범주형 변수 처리와 모델 선택에 대한 질문을 주셨군요. 결론부터 말씀드리자면, object 형 데이터에 대해 라벨 인코딩과 원핫 인코딩을 어떻게 적용할지 결정하는 것은 상황에 따라 다를 수 있으며, 특정 모델에서 더 나은 성능을 발휘하는 방법을 선택하는 것이 중요합니다.

범주형 변수의 처리

  1. 라벨 인코딩(Label Encoding):

    • 이 방법은 범주형 데이터를 숫자로 변환할 때 사용됩니다. 범주형 변수의 고유한 값을 각기 다른 정수로 치환하는 방식입니다.
    • 작은 범주 수를 가진 변수에 적합합니다.
  2. 원핫 인코딩(One-Hot Encoding):

    • 각 범주를 이진 변수로 변환하여 다차원으로 펼치는 방법입니다.
    • 특정 모델이 카테고리의 순서를 의미 있게 해석하지 않을 수 있으므로, 종종 원핫 인코딩이 선호됩니다.
    • 많은 카테고리를 가진 변수를 사용할 경우 데이터의 차원이 크게 증가할 수 있으므로 주의해야 합니다.

모델 선택

  • 랜덤 포레스트(RandomForest):

    • 데이터의 해석성이 높고 범주형 데이터 처리에 유연합니다.
    • 성능에 있어서 범주형 변수에 대한 인코딩 방식을 적절히 선택해야 할 수 있습니다.
  • LightGBM:

    • 일반적으로 데이터 전처리를 단순화할 수 있으며, 범주형 변수를 기본적으로 처리할 수 있습니다.
    • 라벨 인코딩이 주로 사용됩니다.

전략적 선택

  • 결론적으로, 두 가지 인코딩 방법을 모두 시도해보고, 각 모델에서도 둘 다 적용하여 가장 좋은 성과를 내는 조합을 제출하는 것이 합리적입니다.
  • 때로는 데이터에 따라서 한 가지 방법이 더 우수할 수 있으므로, 다양한 시도를 통해 최적의 결과를 찾는 것이 중요합니다.

관련하여 유사한 질문에 대한 기존 게시글을 참고하시면 세부적인 통찰을 얻으실 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드립니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

11회 기출 유형(작업형1) 2번 정답

0

7

1

f1 score 질문

0

6

1

10회 작업형 2 인코딩 질의

0

6

1

53번 강의에서 갑자기 수업노트가 없어졌습니다.

0

10

2

28:19 roc_auc이유

0

15

2

수강연장문의

0

15

2

전체적인 머신러닝 순서

0

10

1

빅분기 실기 유형2질문

0

15

1

ID 전처리 이유

0

28

2

데이터제공

0

23

2

예시문제 작업형3 꼬리질문2번

0

15

1

데이터 개수를 구할 때, len과 value_counts 차이

0

19

2

작업형 2 제출방

0

19

2

인코딩 스케일링 순서

0

20

2

실제 시험에서도 공식을 문제에서 주는지

0

20

2

수강 연장 문의

0

17

2

작업형2 정리한 내용 확인 부탁드립니다 ㅜㅜ

0

21

1

14강 "" 사용 관련 질문

0

22

2

캐글 제출 점수

0

26

2

기출 마무리 방법

0

50

2

빅이시 작업형2 기초 - 케이스 1~3 관련 문의

0

33

6

데이터프레임 슬라이싱 인덱싱 질문2

0

29

2

단일표본검정, 샤피로검정, 윌콕슨검정

0

38

2

강의자료 다운로드 여부

0

39

2