작업2유형 문의
464
작성자 없음
0 asked
안녕하세요 선생님~
유튜브로 강의 수강한 학생입니다.
인프런에 강의 수록되어있는 것 확인 후 문의글 남깁니다.
선생님께서 알려주신대로 코드 작성하면서 궁금했던 점 3가지가 있습니다.
빅데이터분석기사 실기 응시할때, 더미생성하고 파생변수생성 후에, 기존 변수칼럼은 삭제를 안해도 되는지 궁금합니다.
MinMaxScaler로 스케일링 작업시에 모든 칼럼의 변수가 1과 0 사이가 아니어도 크게 문제가 되지않나요? 모든 컬럼의 수치를 모두 0과 1사이의 값을 가질수 있게 0과 1사이의 값을 갖고 있지않은 나머지 컬럼 모두 스케일링 해야하는 것인지 궁금합니다. 예를 들면, 파생변수 생성으로 만든 컬럼 등의 데이터도 모두 스케일링 해야하는지 궁금해요.
모델학습시에 pred1 = pd.DataFrame(model1.predict(X_valid)) 로 데이터프레임을 감싸지않고,pred1 = model1.predict(X_valid)로 코드입력해도 결과값이 나오던데 상관없을까요??

바쁘시겠지만 답변부탁드립니다.
감사합니다.
Answer 1
2
말씀해주신 질의에 대한 답변입니다.
파생변수를 만드는 목적이 제공된 데이터에서 도메인 지식을 접목하여 학습에 용이하게 추가 정보를 생성한다는 것인데요, 평가지표를 통해 비교 평가해서 판단하시면 좋을 듯 합니다.(무조건 두어야 한다. 지워야 한다. 이런건 아닙니다.)
연속형 값에 대해서만 스케일 작업으로 데이터 표준화를 진행하고, 범주형 변수는 하지 않습니다.
(범주형 변수는 문자형을 숫자로 인코딩을 함)
동일하게 나오시면 생략해도 될 것 같습니다.
수고하세요.
구름IDE 서비스 종료 이후 학습환경
0
122
1
10강 연습문제
0
166
1
VotingClassifier Hard 사용
0
111
1
구름IDE 실행 도움 요청
0
162
1
질문입니다 RandomForestClassifier
0
170
1
질문!
0
340
1
데이터 더미화 에러발생 질문.
0
317
1
많은 컬럼과 많은 결측치를 가지는 데이터
0
201
1
Dataset은 어디서 받을 수 있나요?
0
395
1
mpg 데이터셋 위치
0
339
1
교육영상 4강. 작업유형1-문제(1)에 대한 코드는 어디서 받을 수 있나요?
0
376
1
단순평균(1집단)T-test 1번 풀이
0
480
2
강의자료 문의
1
549
1
구름IDE 실행불가문제 ㅠㅠ
0
808
2
제7강 작업유형2-데이터 전처리: LabelEncoder 문법
0
443
1
5강 작업유형1-문제 2 질문입니다
0
407
1
7강 코드 질문드립니다
0
414
1
14강 실전 문제 카테고리 항목문의
0
397
1
데이터셋 분리와 관련하여 질문이 있습니다.
0
446
1
5강의 작업형1-2문제 오류
0
460
1
구름 IDE
0
712
2
[공지] 데이터 전처리 관련 오류 수정
4
546
1
라벨인코더 관련 문의드립니다!
0
506
2
분류 예측에서 결과값의 구체적 내용을 확인할수 있는지요?
0
401
2

