인프런 영문 브랜드 로고
인프런 영문 브랜드 로고

Inflearn Community Q&A

박나현's profile image
박나현

asked

[After-work activities] Big Data Analysis Engineer Practical (Work-type 1,2,3)

Kaggle transcription strategy

캐글 T2-1 타이타닉 질문있습니다.

Resolved

Written on

·

117

0

  • EDA 단계에서 age, cabin에서 결측치가 있다는 것을 알았는데 혹시 이건 따로 처리를 하지 않아도 되는건가요?

 

  • y = y_train["Survived"]

    # sex만 원핫인코딩 됨

     

    features = ["Pclass", "Sex", "SibSp", "Parch"]

    X = pd.get_dummies(X_train[features])

    test = pd.get_dummies(X_test[features]) -> 이 4개 컬럼을 원핫인코딩 하셨는데 혹시 이 컬럼들을 선택한 기준이 있을까요?

     

    object가 아닌 열도 포함되어 있어서요 ! 나머지 cabin이나 embarked 같은 문자 데이터는 인코딩 안해도 되나요?

     

python머신러닝빅데이터pandas빅데이터분석기사

Answer 1

1

roadmap님의 프로필 이미지
roadmap
Instructor

타이타익이 빅분기 대비 쉬운 데이터는 아니라서

쉽게 전체를 보여주기 위해서 선택 하였을 뿐 이유는 없습니다.

시험에서는 전체 데이터를 사용해주세요!

그리고 범주형이 있다면 인코딩 하면됩니다. 💪 아래쪽에 있는 작업형2는 만든지 꽤 시간이 흘러
위쪽에 2024.05~06에 만든 작업형2 위주로 참고해주세요!!

박나현님의 프로필 이미지
박나현
Questioner

감사합니다아 🥹🥹

박나현's profile image
박나현

asked

Ask a question