작업형2 시험에 대한 질문드립니다.
인코딩 시 베이직모델, 레이블인코딩, 원핫인코딩 등 여러가지가 있는데 제일 좋은건 전부 비교해서 결과를 따져보고 선택하는거지만 그런거에 자신이 없다고 할때 하나만 선택해서 해도 만점받는데 문제없나요? 만약 문제없다면 어떤걸로 선택해서 인코딩하는게 가장 무난할지 추천부탁드립니다.
모델 선택할 때 랜덤포레스트, xgboost 등 여러가지가 있는데 랜덤포레스트 하나만 밀어도 만점받는데 문제없을까요?
답변 2
0
안녕하세요, 인프런 AI 인턴입니다. 봉동개미님.
작업형2 시험에 관해 궁금해하신 사항에 대해 답변드리겠습니다:
인코딩 선택:
- 레이블인코딩 vs 원핫인코딩:
대부분의 경우, 인코딩 선택은 데이터의 특성에 따라 결정됩니다. 일반적으로, 범주형 데이터의 개수가 많지 않을 때는 원핫인코딩을 적용하는 것이 무난합니다. 하지만 시험과 같이 시간 압박이 있는 상황에서는 레이블인코딩도 유용할 수 있습니다. 레이블인코딩은 빠르고 간단하지만, 범주형 데이터의 값 크기가 모델에 의해 의미로 해석될 수 있다는 점을 유의해야 합니다.
- 권장 방법:
만약 하나의 방법만 선택해야 한다면, 데이터의 특성을 애매하게 고려하지 않고 모든 범주형 데이터를 같은 방식으로 처리할 수 있는 원핫인코딩을 추천드립니다. 몇몇 경우에는 원핫인코딩이 과적합(overfitting)을 피하는 데 도움이 됩니다.
- 레이블인코딩 vs 원핫인코딩:
모델 선택:
- 랜덤포레스트 사용:
랜덤포레스트는 다양한 데이터 세트에서 좋은 성능을 보이는 데다 사용이 용이하기 때문에 많이 선택되는 모델입니다. 특히, 적정한 성능을 쉽게 낼 수 있어 실전 시험 상황에서는 안전한 선택일 수 있습니다.
- 무난한 모델 선택:
시간을 절약하고, 안정적인 점수를 원하신다면 랜덤포레스트를 활용하는 것이 적절합니다. 물론, 성능 개선을 원하신다면 XGBoost나 다른 앙상블 기법을 추가로 사용하실 수 있겠지만, 시험에서는 한 가지 모델에 집중하여 시간 관리에 효율성을 기하는 것이 중요합니다.
- 랜덤포레스트 사용:
이와 관련하여 유사한 질문과 답변을 통해 더 많은 정보를 얻으실 수 있는 자료를 첨부합니다:
- 빅데이터 분석기사 (2회): 기출유형-작업형2 질문
- 작업형 2유형 질문
시험 준비 시에는 문제 풀이 전략을 미리 정해두고, 연습을 통해 속도를 높이는 것도 커다란 도움이 될 것입니다.😄
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
대응표본검정 레빈
0
9
2
단일표본검정 문제 유형
0
10
2
[작업형 3] 6~7. 카이제곱 검정
0
11
2
9회 작업형3 문제 1-1
0
16
2
최종답안 계산 방식 질문
0
13
1
시험 치기 전 급하게 질문 사항
0
21
2
유형3
0
19
2
작업형 2 연습문제 섹션 3
0
13
2
11 기출문제 ipynb파일
0
18
2
작업형 3 유형
0
18
2
11회 기출 유형(작업형1) 2번 정답
0
17
2
f1 score 질문
0
18
2
10회 작업형 2 인코딩 질의
0
14
2
53번 강의에서 갑자기 수업노트가 없어졌습니다.
0
20
2
28:19 roc_auc이유
0
19
2
수강연장문의
0
22
2
전체적인 머신러닝 순서
0
23
2
빅분기 실기 유형2질문
0
25
1
ID 전처리 이유
0
31
2
데이터제공
0
31
2
예시문제 작업형3 꼬리질문2번
0
22
1
데이터 개수를 구할 때, len과 value_counts 차이
0
28
2
작업형 2 제출방
0
22
2
인코딩 스케일링 순서
0
24
2





