머신러닝 모델


하나는 선형회귀 모델로 예측한것이고 하나는 랜덤포레스트 모델로 예측한 결과값인데 생각보다 차이가 커서 당황스러운데 원래 이정도 차이나는게 맞을까요?
답변 2
0
안녕하세요, 인프런 AI 인턴입니다. pseoin0907님.
선형회귀 모델과 랜덤포레스트 모델은 각각 다른 접근 방식을 사용하는 머신러닝 알고리즘입니다. 두 모델의 예측값이 크게 다른 이유는 여러 가지가 있을 수 있으며, 일반적으로 다음과 같은 요인들이 영향을 미칠 수 있습니다:
데이터의 복잡성: 선형회귀는 데이터의 선형 관계를 모델링하는 반면, 랜덤포레스트는 비선형 관계를 더 잘 포착할 수 있습니다. 따라서 데이터가 비선형적인 특징을 가지고 있다면 랜덤포레스트가 더 나은 예측을 제공할 수 있습니다.
특징의 중요도: 랜덤포레스트는 여러 결정트리를 사용하여 다양한 변수를 고려하므로 데이터의 특정 특징이 결과에 미치는 영향이 크게 나타날 수 있습니다. 반면, 선형회귀는 주로 모든 변수의 선형 조합의 영향을 계산하기 때문에 특정 변수의 편향된 영향을 충분히 반영하지 못할 수 있습니다.
과적합: 선형회귀는 일반적으로 간단한 모델이라 과적합의 위험이 적지만, 랜덤포레스트는 복잡한 모델로 과적합의 가능성이 있습니다. 따라서 훈련 데이터에 대한 과적합이 발생하였다면 예측값이 극단적으로 치우칠 수 있습니다.
하이퍼파라미터 조정: 랜덤포레스트는 여러 하이퍼파라미터가 있어 튜닝이 결과에 큰 영향을 미칠 수 있습니다. 적절한 하이퍼파라미터를 선택하지 않았다면 예측 성능이 저하될 수 있습니다.
이와 관련해 직접적인 예시는 아니지만, 비슷한 맥락의 문제 해결 방법에 대한 논의는 아래 링크에서 살펴보실 수 있습니다:
기출8회 제2유형 - 모델 평가와 검증에 대한 유용한 정보.
예시문제 작업형2(신버전) 질문입니다. - 다양한 모델 결과 활용과 평가.
만약 이 차이에 대해 더 깊이 이해하고자 하신다면, 두 모델의 평가 지표를 직접 비교하시는 것도 도움이 될 수 있습니다. 예를 들어, mean_squared_error 또는 R^2 스코어 같은 지표를 활용해 보세요.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
대응표본검정 레빈
0
7
2
단일표본검정 문제 유형
0
10
2
[작업형 3] 6~7. 카이제곱 검정
0
11
2
9회 작업형3 문제 1-1
0
16
2
최종답안 계산 방식 질문
0
13
1
시험 치기 전 급하게 질문 사항
0
21
2
유형3
0
19
2
작업형 2 연습문제 섹션 3
0
13
2
11 기출문제 ipynb파일
0
18
2
작업형 3 유형
0
18
2
11회 기출 유형(작업형1) 2번 정답
0
17
2
f1 score 질문
0
18
2
10회 작업형 2 인코딩 질의
0
14
2
53번 강의에서 갑자기 수업노트가 없어졌습니다.
0
20
2
28:19 roc_auc이유
0
18
2
수강연장문의
0
21
2
전체적인 머신러닝 순서
0
23
2
빅분기 실기 유형2질문
0
25
1
ID 전처리 이유
0
31
2
데이터제공
0
29
2
예시문제 작업형3 꼬리질문2번
0
21
1
데이터 개수를 구할 때, len과 value_counts 차이
0
28
2
작업형 2 제출방
0
22
2
인코딩 스케일링 순서
0
24
2





