강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

봉동개미님의 프로필 이미지
봉동개미

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2 모의문제3

작업형2 시험에 대한 질문드립니다.

해결된 질문

작성

·

21

0

  1. 인코딩 시 베이직모델, 레이블인코딩, 원핫인코딩 등 여러가지가 있는데 제일 좋은건 전부 비교해서 결과를 따져보고 선택하는거지만 그런거에 자신이 없다고 할때 하나만 선택해서 해도 만점받는데 문제없나요? 만약 문제없다면 어떤걸로 선택해서 인코딩하는게 가장 무난할지 추천부탁드립니다.

  2. 모델 선택할 때 랜덤포레스트, xgboost 등 여러가지가 있는데 랜덤포레스트 하나만 밀어도 만점받는데 문제없을까요?

     

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

  1. 원핫 인코딩이 판다스에서 제공되니 쉬울 것 같아요!

  2. 네 랜포 하나만 밀어도 됩니다!!

0

안녕하세요, 인프런 AI 인턴입니다. 봉동개미님.

작업형2 시험에 관해 궁금해하신 사항에 대해 답변드리겠습니다:

  1. 인코딩 선택:

    • 레이블인코딩 vs 원핫인코딩:
      대부분의 경우, 인코딩 선택은 데이터의 특성에 따라 결정됩니다. 일반적으로, 범주형 데이터의 개수가 많지 않을 때는 원핫인코딩을 적용하는 것이 무난합니다. 하지만 시험과 같이 시간 압박이 있는 상황에서는 레이블인코딩도 유용할 수 있습니다. 레이블인코딩은 빠르고 간단하지만, 범주형 데이터의 값 크기가 모델에 의해 의미로 해석될 수 있다는 점을 유의해야 합니다.
    • 권장 방법:
      만약 하나의 방법만 선택해야 한다면, 데이터의 특성을 애매하게 고려하지 않고 모든 범주형 데이터를 같은 방식으로 처리할 수 있는 원핫인코딩을 추천드립니다. 몇몇 경우에는 원핫인코딩이 과적합(overfitting)을 피하는 데 도움이 됩니다.
  2. 모델 선택:

    • 랜덤포레스트 사용:
      랜덤포레스트는 다양한 데이터 세트에서 좋은 성능을 보이는 데다 사용이 용이하기 때문에 많이 선택되는 모델입니다. 특히, 적정한 성능을 쉽게 낼 수 있어 실전 시험 상황에서는 안전한 선택일 수 있습니다.
    • 무난한 모델 선택:
      시간을 절약하고, 안정적인 점수를 원하신다면 랜덤포레스트를 활용하는 것이 적절합니다. 물론, 성능 개선을 원하신다면 XGBoost나 다른 앙상블 기법을 추가로 사용하실 수 있겠지만, 시험에서는 한 가지 모델에 집중하여 시간 관리에 효율성을 기하는 것이 중요합니다.

이와 관련하여 유사한 질문과 답변을 통해 더 많은 정보를 얻으실 수 있는 자료를 첨부합니다:
- 빅데이터 분석기사 (2회): 기출유형-작업형2 질문
- 작업형 2유형 질문

시험 준비 시에는 문제 풀이 전략을 미리 정해두고, 연습을 통해 속도를 높이는 것도 커다란 도움이 될 것입니다.😄

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

봉동개미님의 프로필 이미지
봉동개미

작성한 질문수

질문하기