해결된 질문
작성
·
191
·
수정됨
0
작업형2번에서 분류인지 회귀인지는 정확히 어떻게 구분하나요?
원핫 인코딩 할 때 아래 1~4까지 다 가능한 식일까요?
c_train = pd.get_dummies(c_train[cols]) ---1
c_train[cols] = pd.get_dummies(c_train[cols]) ---2
c_train = pd.get_dummies(c_train) ----3
c_train[cols] = pd.get_dummies(c_train) ----4
<=50K -> 0,
>50K -> 1 을 예측하는 문제에서
y = (y_train['income'] == '>50K').astype(int) 이거말고
원핫 인코딩이나 라벨인코딩을 할 수 있나요?
회귀 rmse 에서 np.exp() 해주는 이유가 뭔가요?
roc_auc 평가지표 일때는 분류문제에서만 가능한가요?
roc_auc 말고 확률을 구하는 평가지표는 없는걸까요?
결측치를 제거할 때, x_train,y_train,x_test 데이터 셋이 있을 경우
y_train에 대해서는 이상치, 결측치가 존재 하지 않는거죠? 그리고 y_train에는 피쳐엔지니어링은 진행안하는거죠? y_train은 정답 데이터기때문에 이상치나 결측치가 존재하지 않고 아무런 처리를 하지 않는다고 보면 될까요?
원핫인코딩을 할 때 전체 데이터 셋에 대해서 넣게 되면 pd.get_dummies(c_train)
y_train 값은 뺀 뒤에 원핫인코딩을 진행해야 되는 건가요?
x_train, x_test 에 대해서만 결측치, 이상치, 피쳐엔지니어링을 진행 한다고 보면 될까요?
x_train,x_test 에 대해서 결측치가 존재할 때, 행 삭제를 하면 안되니까 절대 dropna를 사용하면 안된다고 생각하면 될까요?
대신 컬럼 삭제는 가능하지만, x_test의 target 컬럼만 제외하고 컬럼 삭제가 가능하다고 생각하면 되나요? (컬럼삭제를 잘 사용하지 않긴하지만 혹시나 궁금해서 여쭤봅니다 )
답변 1
0
1 문제, 타겟컬럼, 평가지표를 보고 구분할 수 있습니다. (섹션17 시험응시전략 영상 참고)
2 에러가 안난다면 가능합니다. 3번이 쉬워보이네요! 3번으로 밀고 가시죠!! 4번은 에러가 날 것 같네요
3 타겟을 원핫인코딩하는 것은 매우 특수한 상황입니다. 제가 작성한 코드가 레이블인코딩한 코드입니다. 인코딩함수를 사용하지 않은 이유는 랜덤이 아니라 >50K을 1값으로 만들기 위함이에요
4 타겟 값에 로그를 취한 경우 원래값으로 돌려주기 위함입니다. -> 로그 사용이 어렵다면 사용하지 않는 것을 추천합니다.
5 네 맞습니다.
6 평가지표는 만들 수도 있기 때문에 있을 수도 있습니다. 시험에서는 특수한 평가지표를 사용하진 않을 것 같아요
7 y_train은 타겟입니다. 이상치는 없으나 결측치는 일반적으로는 없으나 있을 수도 있습니다.
8 타겟이 숫자면 함께 넣어도 상관없습니다.
9 x_trian과 y_train을 묶어서 train으로 일단 해석해주세요 2개가 나올 가능성이 큽니다.
train과 test를 함께 전처리 하면 됩니다.
train의 행삭제는 괜찮습니다. test의 행 제거는 절대 하면 안됩니다.
test에는 target 컬럼이 없습니다.
네, train과 test함께 컬럼 삭제 또는 파생컬럼 생성 가능합니다.
target을 제외하고 train과 test 컬럼은 일치해야 합니다!
train행은 삭제해도 되고, test행은 절대 삭제하면 안됩니다.
시험 잘 보고 오세요 🙂 응원합니다.
11번질문 train에 컬럼 삭제는 가능한가요?