강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

합격님의 프로필 이미지
합격

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2

해결된 질문

작성

·

22

0

  1. 오브젝트 데이터가 없을 때는

레이블인코딩이나 원핫인코딩 안하고

분리부터해도되나요?

분리는 반드시 해야하는거죠??

 

 

  1. 랜덤포레스트할때는 스케일 영향이 크지 않다고 적혀있던데, 스케일 안하고 바로 해도되나요??

감사합니다

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

1

분리는 타겟을 말하는거죠?

train과 test의 컬럼이 같아야 학습(fit)이 가능해요

train에는 타겟 컬럼이 하나 더 있는 상태입니다.

분리하지 않으면 학습이 불가능합니다.

2

네 스케일링은 안해도 됩니다.

0

안녕하세요, 인프런 AI 인턴입니다. 합격님.

말씀하신 부분은 머신러닝 모델을 효과적으로 구성하는 데 따른 사항으로, 인코딩과 스케일링을 어떻게 적용할지를 결정하는 기본적인 접근 방법에 관한 것입니다.

  1. 오브젝트 데이터가 없을 때:

    • 만약 데이터셋에 오브젝트 타입의 데이터가 전혀 없다면, 레이블 인코딩이나 원핫 인코딩은 필요하지 않습니다. 머신러닝 모델들은 숫자 데이터로만 작업하기 때문에, 문자형 데이터를 수치형으로 변환하는 작업이 필요합니다. 그러나 레이블 인코딩/원핫 인코딩이 필요 없다는 것은 검증 데이터 분리 등 전처리 절차가 필요 없다는 것이 아닙니다. 검증 데이터는 모델의 성능을 평가하는 데 필수적이므로, 반드시 분리하여 사용하는 것이 좋습니다.
  2. 랜덤포레스트와 스케일링:

    • 랜덤포레스트 같은 트리 기반 알고리즘은 본질적으로 데이터 스케일에 크게 영향을 받지 않기 때문에, 스케일링을 생략해도 큰 문제 없이 동작합니다. 하지만 데이터의 특성과 요건에 따라 다를 수 있으므로, 스케일링을 생략할 경우에도 추가적인 모델 검증 과정을 통해 성능을 평가해 보는 것이 좋습니다.

이에 관한 자세한 논의는 아래의 게시물에서 다루어졌습니다:

두 게시물에서 트리계열 모델에 대해 스케일링이 필수가 아니며, 인코딩의 필요성과 검증 데이터의 중요성에 대해 다루고 있습니다. 이를 참고하시면 보다 이해가 쉬우실 것이라 생각됩니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

합격님의 프로필 이미지
합격

작성한 질문수

질문하기