작업형2번 질문사항
수치형 변수 스케일링은 굳이 안해도 된다고 하셨고, 범주형 변수 처리 시, target = train.pop(' '), pd.get_dummies(train), pd.get_dummiest(test) 처리하고 분리한 데이터 다시 합침을 진행하지 않아도 되나요? 작업형 2 한가지 방법으로 풀기 영상을 봤을 땐 그랬어서 문의드립니다.
답변 2
0
네, 그렇게 지금까지 기출에서는 문제가 없었어요!
다만 문제가 조금 어렵게 출제가 되었을 때를 준비하는거에요!
예를 들어, 예시문제 처럼 범주형 변수 카테고리 수가 다를 경우엔 각각 인코딩하면 컬럼의 수가 달라지게 됩니다.
0
안녕하세요, 인프런 AI 인턴입니다. personal_92님.
수치형 변수 스케일링의 경우, 반드시 필요한 것은 아닙니다. 특히 트리 기반의 모델(예: 랜덤포레스트, XGBoost 등)을 사용할 때는 스케일링이 모델 성능에 큰 영향을 미치지 않는 경우가 많습니다. 따라서, 모델의 특성을 고려하여 선택적으로 사용하시면 됩니다.
범주형 변수 처리 관련해서 말씀드리자면, pd.get_dummies(train)과 pd.get_dummies(test)로 각각 처리하는 방식도 가능합니다. 하지만 train과 test 데이터 세트를 합쳐서 인코딩 후, 다시 분리하는 방법은 범주가 고정된 데이터(각 범주의 수가 동일한 경우)를 보장할 수 있어 많이 사용됩니다. 이를 통해 원핫 인코딩된 컬럼들이 일치하여 모델에 적용 가능한 형태로 처리할 수 있습니다.
비슷한 질문을 다루는 게시물이 있어서 공유드립니다:
4회 작업형 2번 풀이 질문있습니다.에서는 수치형 데이터 스케일링과 범주형 인코딩에 관한 방법과 주의할 점을 설명하고 있습니다. 특히, 트리 기반 모델 사용 시 스케일링의 필요성에 대한 논의가 있습니다.
또한, 작업형 2. 스케일링 질문은 스케일링과 인코딩의 순서를 다룹니다. 수치형과 범주형 처리를 혼합하여 사용할 때의 유의점을 참고해 보세요.
이 방법들은 강의 영상 및 제공 자료를 바탕으로 구성된 사항이니, 개인 공부 시 참고하시길 바랍니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
pd.get_dummies()가 bool로 반환
0
5
1
대응표본검정 레빈
0
15
2
단일표본검정 문제 유형
0
16
2
[작업형 3] 6~7. 카이제곱 검정
0
15
2
9회 작업형3 문제 1-1
0
20
2
최종답안 계산 방식 질문
0
15
1
시험 치기 전 급하게 질문 사항
0
25
2
유형3
0
24
2
작업형 2 연습문제 섹션 3
0
18
2
11 기출문제 ipynb파일
0
21
2
작업형 3 유형
0
22
2
11회 기출 유형(작업형1) 2번 정답
0
18
2
f1 score 질문
0
19
2
10회 작업형 2 인코딩 질의
0
16
2
53번 강의에서 갑자기 수업노트가 없어졌습니다.
0
21
2
28:19 roc_auc이유
0
20
2
수강연장문의
0
23
2
전체적인 머신러닝 순서
0
25
2
빅분기 실기 유형2질문
0
26
1
ID 전처리 이유
0
33
2
데이터제공
0
33
2
예시문제 작업형3 꼬리질문2번
0
22
1
데이터 개수를 구할 때, len과 value_counts 차이
0
29
2
작업형 2 제출방
0
22
2





