3회 기출문제(작업형2) 스케일링 질문드립니다.
안녕하세요 강사님! 좋은 강의에 감사드립니다.
다름이 아니라, 3회 기출문제(작업형2)에서
아래와 같이 robust scaler를 사용하실 때
train과 test를 각각 스케일링하는 거랑
data = pd.concat[train, test]로 합치는 것과 실전에서 영향이 없을까요?
train 범위 표본을 가지고 fit 한 경우와 concat한 큰 data를 가지고 fit 한 경우가 스케일링 결과가 다른 경우가 있을까요?
n_train[cols] = scaler.fit_transform(n_train[cols])
n_test[cols] = scaler.transform(n_test[cols])
답변 1
0
랜덤포레스트 모델, lightgbm과 같은 트리계열의 모델을 사용한다면
스케일 자체가 영향이 크지 않아요!
합쳐서 하는 방법은 정석은 아니어서
train 범위 표본을 가지고 하는 것이 일반적입니다.
test는 실무에서는 새로운 데이터라 당장은 알 수 없는 영역이거든요
RandomForest vs lgb
0
11
1
전처리 관련질문
0
7
2
작업형3 기출
0
7
1
유형2에서 데이터분할 생략 가능여부
0
13
2
9회 기출 유형3 질문
0
10
1
lgb 기초편
0
8
1
괄호 사용
0
12
1
작업형 2 데이터 전처리 질문
0
14
1
11회 기출 유형 작업형1 문제 3-1
0
10
0
예시문제 작업형2 (ver2023) 질문입니다
0
12
1
Data type에 따른 처리
0
12
2
데이터 전처리 관련
0
14
2
시험에서 문제 불러오기
0
12
2
2번문제 출력값 질문
0
18
2
pd.get_dummies()가 bool로 반환
0
16
2
대응표본검정 레빈
0
20
3
단일표본검정 문제 유형
0
22
2
[작업형 3] 6~7. 카이제곱 검정
0
18
2
9회 작업형3 문제 1-1
0
35
2
최종답안 계산 방식 질문
0
20
1
시험 치기 전 급하게 질문 사항
0
35
2
유형3
0
29
2
작업형 2 연습문제 섹션 3
0
20
2
11 기출문제 ipynb파일
0
33
2





