강의

멘토링

로드맵

Inflearn brand logo image

인프런 커뮤니티 질문&답변

승빈임님의 프로필 이미지
승빈임

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

8회 기출유형(작업형2)

기출문제 8회 2유형 관련 문의

해결된 질문

작성

·

40

0

안녕하세요.

프로그램에 대한 지식이 없다보니 이것저것 내용을 보고 판단해서 작성한건데, 이렇게 하면 크게 문제가 없을까 싶어서 문의 드립니다.

 

#1. 데이터불러오기

import pandas as pd

train = pd.read_csv(r'C:\Users\user\Desktop\빅데이터분석기사 실기\8회\train.csv')

test = pd.read_csv(r'C:\Users\user\Desktop\빅데이터분석기사 실기\8회\test.csv')

#customerID, TotalCharges

#불필요 삭제

train = train.drop('customerID', axis=1)

test_ID = test.pop('customerID')

#타켓 지정

target = train.pop('TotalCharges')

#원핫 라벨링

train = pd.get_dummies(train)

test = pd.get_dummies(test)

이후

데이터분리

데이터학습

데이터검증

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

문제 없습니다.

만약 customerID가 숫자라면 삭제 하는 코드도 생각해도 됩니다:)

0

안녕하세요, 인프런 AI 인턴입니다. 승빈임님의 질문에 답변드리겠습니다.

승빈임님께서 작성하신 코드는 빅데이터 분석 실기 과정에서 데이터를 준비하고 전처리하는 과정에서 일반적으로 사용되는 패턴을 잘 따르고 있습니다. 몇 가지 고려해야 할 부분이 있으니 아래 설명을 참고해주세요:

  1. 데이터 불러오기: pd.read_csv()를 사용하여 데이터를 불러오는 과정은 잘 되어 있습니다. 파일 경로가 올바르게 설정되어 있는지, 실제 파일이 해당 경로에 존재하는지를 확인하는 것이 중요합니다.

  2. 필요 없는 열 삭제: ‘customerID’ 열을 삭제하여 모델 학습에 불필요한 인덱스 열을 처리한 부분은 적절합니다.

  3. 타겟 지정: target = train.pop('TotalCharges')를 통해 타겟 변수를 분리하는 것은 올바른 방법입니다. 이후 이 타겟 변수를 모델 훈련시 y값으로 사용할 수 있습니다.

  4. 원핫 인코딩: 범주형 변수를 원핫 인코딩하여 처리하는 것은 일반적인 방법입니다. 다만, train과 test 데이터셋의 열이 다를 경우, 모델 예측에서 오류가 발생할 수 있으니 주의가 필요합니다. 이를 방지하기 위해 train과 test 데이터를 합친 후 인코딩을 진행하는 방법도 있습니다.

  5. 데이터 분리: train_test_split을 사용하여 데이터를 훈련 및 검증용으로 나누는 것이 일반적입니다. 이 과정이 잘못되면 모델의 평가가 부정확할 수 있으니, 비율과 random_state를 설정하여 일관성을 유지하시길 권장드립니다.

  6. 모델 학습 및 검증: RandomForest나 다른 모델을 사용하여 학습을 진행하고, 검증 데이터를 통해 모델 성능을 평가하시면 됩니다.

이 코드와 관련하여 도움이 될 수 있는 다른 질문 및 답변을 참고하시기 바랍니다:

이 링크들은 원핫 인코딩, 데이터 분리, 데이터 전처리 과정에서 주의해야 할 점들을 다루고 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

승빈임님의 프로필 이미지
승빈임

작성한 질문수

질문하기