질문이 있습니다.

Question

질문1. 8강. 작업유형2-모형학습 및 평가의 11번. 예측값저장에서 'id' : y_test.index를 하면서  11강, 13강에서의 11번. 파일저장에서는 'id' : X_test.index를 하는데  8강과 (11강,13강)의 차이는 왜 발생하는 것인가요?  질문2. 11강.연습문제1(분류)-모형학습 및 평가의 11번. 파일저장에서 result = result.iloc[:, 1]을 해서 1번째 열을 가지고 오는데,  13강 연습문제2(회귀)-모형학습 및 평가의 11번. 파일저장에서 result = result.iloc[:, 0]에서는 왜 0번째 열을 가지고 오는 것인가요?

Answer

안녕하세요.

답변을 수시로 파악하지 않아, 늦게 작성해드린 점 죄송합니다.

우선 질문을 2가지 주셨는데요,

첫째, y_test.index, X_test.index 왜 다르게 하는건지?

샘플 데이터의 경우 분석 과정에서 종속변수 y와 독립변수 x를 분리하다 보니,

실제 y_test.index, X_test.index의 값이 같습니다.

따라서 어떤 것을 사용해도 무관합니다.

실제 시험에서는 "test 데이터의 실제 index 번호와 동일하게 제출파일을 만드는 것"이

중요하다고 할 수 있습니다.

둘째, result = result.iloc[:, 1], result = result.iloc[:, 0] 왜 다른지?

분류 예측 문제에서 predict_proba로 각각의 확률을 표현하다 보니 한개의 열이 더 생성됩니다.

그러나 회귀모형에서는 예측된 값만 나오다 보니, 형태가 달라서 그런 것이구요.

실제로 예측한 값을 살펴보시면 다름을 알 수 있습니다.

이상입니다.

인프런 질의응답을 수시로 파악하고 있지는 않습니다. :)

병훈

질문이 있습니다.

이 글과 비슷한 Q&A

4-2 작업형 1 모의문제2 문제4

카카오톡 채널 및 챗봇 생성하기 1분 30초에서 진행하고 있는데요

기출 3회 작업형2 예측부분 오류

데이터 결측치 채울 때 기준데이터