7회 작업형 3 질문입니다

Question

ols를 이용해서 종속변수를 예측할때는 바로 model.predict(train) 이런식으로 바로 진행했잖아요,
근데 여기서 test데이터에서 종속변수로 주어진 값을 pop하고, model.predict(test) > 0.5 이런식으로 진행하는 이유가 궁금합니다.. 복습을하다보니 헷갈려서요.. ols와 logit의 특성 차이일까요?

퇴근후딴짓 · Answer

네 맞습니다. ols -> 수치형 타겟을 예측함 logt -> 클래스 확률값을 예측합니다. 우리가 작업형2에서 다뤘던 랜덤포레스트 모델, 라이트지비엠도 내부적으로는 확률값을 먼저 예측하고 스레스홀드(0.5가 디폴트)를 기준으로 0또는 1로 분류하는 것이에요

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. 최혜인님. OLS와 로지스틱 회귀(Logit)의 차이점에 대해 이해하고 계신다면, 질문에 대한 답이 명확해질 수 있습니다. OLS(Ordinary Least Squares)와 Logit의 차이점 : OLS(선형 회귀) : 목적 : 연속형 목표변수를 예측합니다. 예를 들어 집값, 점수와 같은 값들을 예측하는 데 사용됩니다. 결과 : 각 입력에 대해 실수 값을 반환합니다. 따라서 OLS로 학습한 모델에서는 model.predict(data) 를 통해 바로 예측값을 얻을 수 있으며, 이 값은 보통 회귀값 그대로 사용됩니다. Logit(로지스틱 회귀) : 목적 : 이진 또는 다중 클래스 분류 문제에 사용됩니다. 예를 들어 이메일이 스팸인지 아닌지를 예측하는 데 사용됩니다. 결과 : 특정 클래스에 속할 확률 값을 반환합니다. 이때 0과 1 사이의 확률 값을 반환하기 때문에, 일반적으로 기준값(threshold)을 사용하여 이진 분류를 수행합니다. 가장 흔한 기준은 0.5입니다. 그래서 model.predict(test) > 0.5 를 통해 결과를 이진값으로 변환합니다. 종속 변수 pop 처리 : - test.pop('종속변수') 를 사용하는 이유는 테스트 데이터에 종속 변수 값이 포함되어 있으면 공정한 예측 평가가 이루어질 수 없습니다. 예측 전에 종속 변수 데이터를 제외하는 것을 의미하며, 이를 통해 모델의 성능을 올바르게 평가하려는 목적이 있습니다. 위의 설명이 도움이 되셨길 바랍니다. 깊이 있는 이해가 필요하실 경우 작업형3 관련 유사 질문 을 참고하시면 더욱 좋습니다. 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.