작업형 2 질문
48
작성한 질문수 4
선생님 작업형 2는 train.info() 했을 때 결측치가 없고 object 형이 많거나 해도 라벨 인코딩 말고 원핫 인코딩을 하고 모델은 randomforest lightgbm 사용해서 점수 더 잘 나온것을 기준으로 제출해도 될까요?
답변 2
0
네! 2~10회까지 그렇게 했을 때
40점에 아무런 문제가 없었습니다. 🙂
다만 여유가 있다면 카테고리가 다른 케이스도 봐주세요 (합쳐서 인코딩)
0
안녕하세요, 인프런 AI 인턴입니다. gusdlseld0089님.
작업형 2에서 범주형 변수 처리와 모델 선택에 대한 질문을 주셨군요. 결론부터 말씀드리자면, object 형 데이터에 대해 라벨 인코딩과 원핫 인코딩을 어떻게 적용할지 결정하는 것은 상황에 따라 다를 수 있으며, 특정 모델에서 더 나은 성능을 발휘하는 방법을 선택하는 것이 중요합니다.
범주형 변수의 처리
라벨 인코딩(Label Encoding):
- 이 방법은 범주형 데이터를 숫자로 변환할 때 사용됩니다. 범주형 변수의 고유한 값을 각기 다른 정수로 치환하는 방식입니다.
- 작은 범주 수를 가진 변수에 적합합니다.
- 이 방법은 범주형 데이터를 숫자로 변환할 때 사용됩니다. 범주형 변수의 고유한 값을 각기 다른 정수로 치환하는 방식입니다.
원핫 인코딩(One-Hot Encoding):
- 각 범주를 이진 변수로 변환하여 다차원으로 펼치는 방법입니다.
- 특정 모델이 카테고리의 순서를 의미 있게 해석하지 않을 수 있으므로, 종종 원핫 인코딩이 선호됩니다.
- 많은 카테고리를 가진 변수를 사용할 경우 데이터의 차원이 크게 증가할 수 있으므로 주의해야 합니다.
- 각 범주를 이진 변수로 변환하여 다차원으로 펼치는 방법입니다.
모델 선택
랜덤 포레스트(RandomForest):
- 데이터의 해석성이 높고 범주형 데이터 처리에 유연합니다.
- 성능에 있어서 범주형 변수에 대한 인코딩 방식을 적절히 선택해야 할 수 있습니다.
- 데이터의 해석성이 높고 범주형 데이터 처리에 유연합니다.
LightGBM:
- 일반적으로 데이터 전처리를 단순화할 수 있으며, 범주형 변수를 기본적으로 처리할 수 있습니다.
- 라벨 인코딩이 주로 사용됩니다.
- 일반적으로 데이터 전처리를 단순화할 수 있으며, 범주형 변수를 기본적으로 처리할 수 있습니다.
전략적 선택
- 결론적으로, 두 가지 인코딩 방법을 모두 시도해보고, 각 모델에서도 둘 다 적용하여 가장 좋은 성과를 내는 조합을 제출하는 것이 합리적입니다.
- 때로는 데이터에 따라서 한 가지 방법이 더 우수할 수 있으므로, 다양한 시도를 통해 최적의 결과를 찾는 것이 중요합니다.
관련하여 유사한 질문에 대한 기존 게시글을 참고하시면 세부적인 통찰을 얻으실 수 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드립니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
11회 기출 유형(작업형1) 2번 정답
0
7
1
f1 score 질문
0
6
1
10회 작업형 2 인코딩 질의
0
6
1
53번 강의에서 갑자기 수업노트가 없어졌습니다.
0
10
2
28:19 roc_auc이유
0
15
2
수강연장문의
0
15
2
전체적인 머신러닝 순서
0
10
1
빅분기 실기 유형2질문
0
15
1
ID 전처리 이유
0
28
2
데이터제공
0
23
2
예시문제 작업형3 꼬리질문2번
0
15
1
데이터 개수를 구할 때, len과 value_counts 차이
0
19
2
작업형 2 제출방
0
19
2
인코딩 스케일링 순서
0
20
2
실제 시험에서도 공식을 문제에서 주는지
0
20
2
수강 연장 문의
0
17
2
작업형2 정리한 내용 확인 부탁드립니다 ㅜㅜ
0
21
1
14강 "" 사용 관련 질문
0
22
2
캐글 제출 점수
0
26
2
기출 마무리 방법
0
50
2
빅이시 작업형2 기초 - 케이스 1~3 관련 문의
0
33
6
데이터프레임 슬라이싱 인덱싱 질문2
0
29
2
단일표본검정, 샤피로검정, 윌콕슨검정
0
38
2
강의자료 다운로드 여부
0
39
2





