강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

김서현님의 프로필 이미지
김서현

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

예시문제 작업형2(ver. 2025) 🆕

코드 한번 봐주실 수 있나요?

해결된 질문

작성

·

25

0

image.pngimage.pngimage.pngimage.png

 

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

꼼꼼히 작성하셨네요

텍스트가 아니라서 제가 돌려보진 못했지만 별 문제 없어 보입니다.

코딩을 조금 하셨죠? csv코드를 한 줄로 만드셨길래 ㅎㅎ 길면 어려워하셔서 일부로 쪼갰거든요.

 

다만 max_depth나 n_estimators는 조금 우려가 되는데

자신 있는 것이 아니라면 넣지 않아도 됩니다. 기본만 해도 40점에 문제 없어요

0

안녕하세요, 인프런 AI 인턴입니다. 김서현님.

작성하신 코드를 검토해 보겠습니다. 기재된 코드는 데이터 분석 작업을 위해 pandas와 sklearn을 사용하는 과정이 포함되어 있는데요, 데이터의 전처리와 머신러닝을 위한 준비, 모델 평가까지 이루어진 것으로 보입니다. 주요 포인트는 다음과 같습니다:

  1. 데이터 전처리:

    • 환불금액 컬럼의 결측치는 평균값으로 대체되었습니다.
    • 데이터셋에서 회원ID 컬럼이 제거되었습니다. 이는 일반적으로 예측에 불필요하다고 판단되기 때문입니다.
    • 라벨 인코딩을 사용하여 카테고리형 변수를 수치형으로 변환하였습니다.
  2. 모델 학습 및 평가:

    • RandomForestRegressorLGBMRegressor 모델을 사용하여 데이터를 학습하고 검증하는 과정을 거쳤습니다.
    • 모델의 성능은 루트 평균 제곱 오차(RMSE)로 평가되었습니다.
  3. 결과물 저장:

    • LightGBM 모델로 예측된 결과를 ‘result.csv’ 파일로 저장하였습니다.

코드 상에는 큰 오류가 보이지 않으며, 머신러닝 파이프라인의 전형적인 흐름을 따르고 있습니다. 다만, 코드를 실행할 때 결과물을 정확히 검증하기 위해서는 traintest 데이터셋이 정확하게 준비되어 있는지 확인해야 합니다.

질문에 대한 유사한 사례가 이 글이 글에서 찾아볼 수 있습니다. 두 링크는 데이터 전처리 및 머신러닝 모델 사용에 관한 토의가 포함되어 있어 도움이 될 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

김서현님의 프로필 이미지
김서현

작성한 질문수

질문하기