inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2 모의문제1 (30강)

6

danielcho0930

작성한 질문수 1

0

수업에서는 수치형 데이터에 대한 스케일링을 미실시 하였고, 학습 모델도 랜덤포레스트로만 진행하였습니다. 수치형 데이터에 대해 StandardScaler, RobustScaler 등의 스케일링을 실시하고, lightgbm 모델도 학습을 했을 때 랜덤포레스트 모델보다 성능이 좋게 나왔습니다. 혹시 이 문제에서 스케일링을 하면 안되는 이유나 lightgbm으로 했을 때 발생할 수 있는 문제가 있을까요?

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 1

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. danielcho0930님께서 문의하신 작업형2 모의문제1에서 수치형 데이터 스케일링과 lightGBM 모델 사용에 대해 답변드리겠습니다.

기본적으로 수치형 데이터에 대한 스케일링은 데이터의 특성과 사용하는 모델의 종류에 따라 선택될 수 있습니다. 다음은 이에 대한 설명입니다:

  1. 수치형 데이터 스케일링:

    • StandardScaler, RobustScaler 등의 사용: 표준화(Standardization)와 정규화(Normalization)는 주로 선형 회귀 모델에 효과적입니다. 트리 기반 모델인 랜덤포레스트, lightGBM에서는 스케일링이 필수적이지 않지만, 데이터의 분포에 따라 성능 향상을 얻을 수도 있습니다.
    • 스케일링은 데이터의 크기를 조정하여 학습을 용이하게 할 수 있지만, 트리 기반 모델은 본질적으로 데이터의 절대 크기에 민감하지 않으므로 큰 영향을 받지 않을 수도 있습니다.
  2. lightGBM 사용:

    • lightGBM은 일반적으로 랜덤포레스트보다 빠르게 학습하고 높은 성능을 발휘할 수 있는 장점이 있습니다. 특히 수치형 데이터에서 매우 효과적입니다.
    • lightGBM의 경우 데이터에 결측치가 있거나 범주형 변수가 많을 때 더욱 강점을 보입니다. 다만, 모델 사용 시 주의할 특수문자나 컬럼명이 있을 수 있어 데이터 전처리에 신경 써야 합니다.
  3. 성능 차이 원인:

    • 랜덤포레스트보다 lightGBM이 더 나은 성능을 보일 수 있는 이유는 lightGBM이 부스팅(Boosting) 기법을 사용하기 때문입니다. 이는 모델이 학습 오류를 반복적으로 개선하는 절차를 가지므로 데이터가 복잡할수록 유리할 수 있습니다.

추가적인 자료로 아래의 답변들을 참고하시기 바랍니다:

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

수강 기간 연장 문의 드립니다.

0

13

1

수강 계획과 관련해 문의 드립니다.

0

15

1

작업형1 - 연습문제 16~39 풀이는 몇강을 보면 되나요?

0

33

2

작업형 1 -연습문제 4-6

0

26

2

작업형 1 유형 부분

0

35

2

작업형 1 (삭제예정, 구 버전)

0

48

2

수강기간 연장 문의드립니다.

0

33

1

2유형 레이블 인코딩 VS 원핫 인코딩

0

35

3

수강기간 연장 문의드립니다.

0

37

1

인덱스 슬라이싱

0

34

2

질문 드립니다.

0

47

2

강의 내용 관련 질문드립니다~

0

45

2

수강 연장 문의

0

63

2

강의자료 일괄 다운로드

0

57

2

수강기간 연장 문의드립니다

0

47

2

list 문제 질문드립니다~

0

36

2

빅분기 실기 12회 재도전

0

61

2

강의 기간 연장 가능여부 검토 요청건

0

49

2

수강기간 연장 문의 드립니다

0

44

2

수강기간 연장 문의드립니다

0

52

2

질문이요

0

56

2

수강기간 연장 문의드립니다.

0

60

2

문제 3-2 질문드립니다

0

47

2

수강기간 연장 문의 드립니다.

0

62

2