inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2 모의문제1 (30강)

해결된 질문

42

danielcho0930

작성한 질문수 1

0

수업에서는 수치형 데이터에 대한 스케일링을 미실시 하였고, 학습 모델도 랜덤포레스트로만 진행하였습니다. 수치형 데이터에 대해 StandardScaler, RobustScaler 등의 스케일링을 실시하고, lightgbm 모델도 학습을 했을 때 랜덤포레스트 모델보다 성능이 좋게 나왔습니다. 혹시 이 문제에서 스케일링을 하면 안되는 이유나 lightgbm으로 했을 때 발생할 수 있는 문제가 있을까요?

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

1

퇴근후딴짓

잘 하셨습니다 🙂 비교해보는 것이 맞습니다.

다만 수업에서는 우선 한가지 방법으로 제대로 제대로 진행하는 연습을 우선으로 하고 있어요!!

 

  1. 스케일링


    트리계열 모델 (랜덤포레스트, xgboost, lightgbm)은 스케일링 효과가 그리 크지 않는 점은 있습니다.

  2. 모델 비교


    모델 비교는 반드시 진행되어야 하는 부분입니다 🙂 성능 좋은 모델을 선택해 예측하는 것이 맞습니다.

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. danielcho0930님께서 문의하신 작업형2 모의문제1에서 수치형 데이터 스케일링과 lightGBM 모델 사용에 대해 답변드리겠습니다.

기본적으로 수치형 데이터에 대한 스케일링은 데이터의 특성과 사용하는 모델의 종류에 따라 선택될 수 있습니다. 다음은 이에 대한 설명입니다:

  1. 수치형 데이터 스케일링:

    • StandardScaler, RobustScaler 등의 사용: 표준화(Standardization)와 정규화(Normalization)는 주로 선형 회귀 모델에 효과적입니다. 트리 기반 모델인 랜덤포레스트, lightGBM에서는 스케일링이 필수적이지 않지만, 데이터의 분포에 따라 성능 향상을 얻을 수도 있습니다.
    • 스케일링은 데이터의 크기를 조정하여 학습을 용이하게 할 수 있지만, 트리 기반 모델은 본질적으로 데이터의 절대 크기에 민감하지 않으므로 큰 영향을 받지 않을 수도 있습니다.
  2. lightGBM 사용:

    • lightGBM은 일반적으로 랜덤포레스트보다 빠르게 학습하고 높은 성능을 발휘할 수 있는 장점이 있습니다. 특히 수치형 데이터에서 매우 효과적입니다.
    • lightGBM의 경우 데이터에 결측치가 있거나 범주형 변수가 많을 때 더욱 강점을 보입니다. 다만, 모델 사용 시 주의할 특수문자나 컬럼명이 있을 수 있어 데이터 전처리에 신경 써야 합니다.
  3. 성능 차이 원인:

    • 랜덤포레스트보다 lightGBM이 더 나은 성능을 보일 수 있는 이유는 lightGBM이 부스팅(Boosting) 기법을 사용하기 때문입니다. 이는 모델이 학습 오류를 반복적으로 개선하는 절차를 가지므로 데이터가 복잡할수록 유리할 수 있습니다.

추가적인 자료로 아래의 답변들을 참고하시기 바랍니다:

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

수업노트가 어디에 있나요?

0

12

1

실기시험 제출관련

0

142

2

6.20 작업형 2 과적합

0

150

3

코딩팡 장업형2 베이스 라인 인코딩 종류 질문

0

47

2

로지스틱회귀, 회귀

0

47

2

회귀 문제를 풀때 질문입니다.

0

53

1

불균형 처리 후 성능이 더 낮아졌다면,

0

61

2

실기 체험 제2유형 에러 문의

0

61

1

LIGHTGBM 으로 하면 pred값이 소수점 6자리까지 나오는게 맞나요

0

48

2

3번문제 등분산 가정

0

46

2

작업형3 target 형 변환 질문

0

34

2

[작업형1] 연습문제 섹션1 ~ 10 의 section4

0

36

3

원핫인코딩과 레이블 인코딩에서 concat

0

58

2

제2유형 질문입니다.

0

46

2

C()

0

44

2

작업형 2에서 strafity 적용 유무

0

51

2

수강 기간 연장 가능 여부 문의드립니다.

0

59

1

ols

0

43

2

2유형 작성관련 질문(일반 심화)

0

39

2

2유형 작성관련 질문

0

41

2

2유형 object컬럼 개수 다르면

0

48

2

코딩팡질문이요ㅠㅠ

0

45

2

관찰값과 기대값의 개념이 헷갈립니다.

0

25

2

작업형2 ID 컬럼 삭제 질문

0

45

2