inflearn logo
강의

Khóa học

Chia sẻ kiến thức

[Làm gì sau giờ làm] Chứng chỉ Phân tích Dữ liệu lớn - Kỳ thi thực hành (Dạng bài tập 1, 2, 3)

작업형2 모의문제1 (30강)

Đã giải quyết

34

danielcho0930

1 câu hỏi đã được viết

0

수업에서는 수치형 데이터에 대한 스케일링을 미실시 하였고, 학습 모델도 랜덤포레스트로만 진행하였습니다. 수치형 데이터에 대해 StandardScaler, RobustScaler 등의 스케일링을 실시하고, lightgbm 모델도 학습을 했을 때 랜덤포레스트 모델보다 성능이 좋게 나왔습니다. 혹시 이 문제에서 스케일링을 하면 안되는 이유나 lightgbm으로 했을 때 발생할 수 있는 문제가 있을까요?

python 머신러닝 빅데이터 pandas 빅데이터분석기사

Câu trả lời 2

1

roadmap

잘 하셨습니다 🙂 비교해보는 것이 맞습니다.

다만 수업에서는 우선 한가지 방법으로 제대로 제대로 진행하는 연습을 우선으로 하고 있어요!!

 

  1. 스케일링


    트리계열 모델 (랜덤포레스트, xgboost, lightgbm)은 스케일링 효과가 그리 크지 않는 점은 있습니다.

  2. 모델 비교


    모델 비교는 반드시 진행되어야 하는 부분입니다 🙂 성능 좋은 모델을 선택해 예측하는 것이 맞습니다.

0

communityai8509

안녕하세요, 인프런 AI 인턴입니다. danielcho0930님께서 문의하신 작업형2 모의문제1에서 수치형 데이터 스케일링과 lightGBM 모델 사용에 대해 답변드리겠습니다.

기본적으로 수치형 데이터에 대한 스케일링은 데이터의 특성과 사용하는 모델의 종류에 따라 선택될 수 있습니다. 다음은 이에 대한 설명입니다:

  1. 수치형 데이터 스케일링:

    • StandardScaler, RobustScaler 등의 사용: 표준화(Standardization)와 정규화(Normalization)는 주로 선형 회귀 모델에 효과적입니다. 트리 기반 모델인 랜덤포레스트, lightGBM에서는 스케일링이 필수적이지 않지만, 데이터의 분포에 따라 성능 향상을 얻을 수도 있습니다.
    • 스케일링은 데이터의 크기를 조정하여 학습을 용이하게 할 수 있지만, 트리 기반 모델은 본질적으로 데이터의 절대 크기에 민감하지 않으므로 큰 영향을 받지 않을 수도 있습니다.
  2. lightGBM 사용:

    • lightGBM은 일반적으로 랜덤포레스트보다 빠르게 학습하고 높은 성능을 발휘할 수 있는 장점이 있습니다. 특히 수치형 데이터에서 매우 효과적입니다.
    • lightGBM의 경우 데이터에 결측치가 있거나 범주형 변수가 많을 때 더욱 강점을 보입니다. 다만, 모델 사용 시 주의할 특수문자나 컬럼명이 있을 수 있어 데이터 전처리에 신경 써야 합니다.
  3. 성능 차이 원인:

    • 랜덤포레스트보다 lightGBM이 더 나은 성능을 보일 수 있는 이유는 lightGBM이 부스팅(Boosting) 기법을 사용하기 때문입니다. 이는 모델이 학습 오류를 반복적으로 개선하는 절차를 가지므로 데이터가 복잡할수록 유리할 수 있습니다.

추가적인 자료로 아래의 답변들을 참고하시기 바랍니다:

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

1유형 강의 다 나간 후 어떻게 할까요?

0

12

1

점수차가 많이 나는데 따로 하신게 있으신가요?

0

8

1

작업형1 모의문제 4번에 3)문제 질문

0

18

2

이상치 전처리 작업

0

25

2

평가결과값 문의

0

28

2

시계열 데이터 날짜와 시간 format

0

34

2

평가지표 F1 스코어 질문드립니다.

0

27

2

작업형 2 기출7회분에서

0

38

2

수강 기간 연장 문의 드립니다.

0

41

2

수강 계획과 관련해 문의 드립니다.

0

30

2

작업형1 - 연습문제 16~39 풀이는 몇강을 보면 되나요?

0

50

2

작업형 1 -연습문제 4-6

0

38

2

작업형 1 유형 부분

0

42

2

작업형 1 (삭제예정, 구 버전)

0

51

2

수강기간 연장 문의드립니다.

0

38

2

2유형 레이블 인코딩 VS 원핫 인코딩

0

37

3

수강기간 연장 문의드립니다.

0

44

2

인덱스 슬라이싱

0

37

2

질문 드립니다.

0

50

2

강의 내용 관련 질문드립니다~

0

46

2

수강 연장 문의

0

63

2

강의자료 일괄 다운로드

0

62

2

수강기간 연장 문의드립니다

0

48

2

list 문제 질문드립니다~

0

38

2