inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[2026년 빅분기 실기 준비] 빅데이터 분석 기사 실기 시험 100% 합격 ! 기출 문제의 패턴이 보인다 !

6회 작업형2 문제1

6회 작업형 2 문제 1

63

heidi415

작성한 질문수 2

0

안녕하세요.

6회 작업형 2 문제 1 영상을 보다 질문 남깁니다.

지금까지는 랜덤포레스트 모델을 돌리기 전에 정규화를 했었는데, 이 문제에서는 정규화를 하지 않았습니다. 정규화를 왜 하지 않은 것인가요?

빅데이터 빅데이터분석기사

답변 1

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. heidi415님께서 질문 주신 랜덤포레스트 모델 적용 시 정규화를 하지 않은 이유에 대해 설명드리겠습니다.

랜덤포레스트와 정규화

랜덤포레스트는 결정 트리(decision tree)를 기반으로 하는 앙상블 학습 기법입니다. 결정 트리 기반 모델들은 데이터의 스케일(크기, 범위)에 덜 민감합니다. 이는 데이터의 절대적인 값보다는 원소 간의 상대적인 분할 기준을 중요하게 여기기 때문입니다.

이유:

  1. 비교적 낮은 스케일 민감도: 결정 트리와 랜덤포레스트는 데이터의 절대적인 수치보다는 데이터의 분포를 기준으로 의사결정을 하기 때문에, 수치의 범위가 다르더라도 성능에 미치는 영향이 적습니다.

  2. 자동 변수 선택 기능: 랜덤포레스트는 각 트리가 무작위로 선택한 특성만을 사용하여 학습하기 때문에, 모든 변수가 동일한 범위에 있어야 할 필요성이 줄어듭니다.

따라서, 랜덤포레스트 모델은 정규화를 하지 않고도 높은 성능을 유지할 수 있는 특성을 가지고 있습니다. 그러나 다른 모델, 특히 회귀나 KNN과 같은 외부 거리 기반 알고리즘의 경우, 반드시 정규화를 고려하는 것이 좋습니다.

유사한 질문을 다룬 게시물이 있으니, 참고하시면 더 많은 정보를 얻으실 수 있습니다:
- “랜덤포레스트 모델에서 정규화의 필요성”

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

수강 기한 연장 문의

0

79

4

코랩 기본 사용법 문의

0

65

1

8회 작업형1 문제2

0

61

2

4회 2유형 1번 문제

0

50

1

다중 선형 회귀 상수항 추가 관련 질문

0

91

2

10회 작업형1번문제2번 문제 풀이 틀림

0

77

2

8회 1유형 1번 문제

0

76

1

답변 항상 감사드립니다. 질문 있습니다.

0

71

2

원핫인코딩 이후 칼럼 불일치 문제

0

68

2

6회 1유형 3번 문제

0

65

1

코딩 방법에 따른 채점 기준에 관하여 질문있습니다.

0

82

1

데이터 파일들은 어디서 다운받을 수 있나요?

0

83

2

선형회귀분석 질문

0

51

2

링크가안보여요 어디에올라와있는거죠대체 ? 구글코랩파일이요

0

86

4

범주형 인코딩

0

87

2

원핫인코딩시 라벨링질문

0

80

1

인코딩 질문!!

0

75

1

유형2 질문!!

0

62

2

작업형 유형 2에서,,, train, test, split 시 성능

0

126

2

항상 모델학습하실때 train_test_split일부러 안하시는 이유가 있는건가요?

0

97

2

Label Encoding 관련 질문

0

104

3

상수항 질문드립니다. (6회 작업형 2문제)

0

52

1

2유형 답안 제출 시 문의

0

62

1

help, dir 사용법

0

95

2